論文の概要: Bridging the LLM Accessibility Divide? Performance, Fairness, and Cost of Closed versus Open LLMs for Automated Essay Scoring
- arxiv url: http://arxiv.org/abs/2503.11827v1
- Date: Fri, 14 Mar 2025 19:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:15.871342
- Title: Bridging the LLM Accessibility Divide? Performance, Fairness, and Cost of Closed versus Open LLMs for Automated Essay Scoring
- Title(参考訳): LLMアクセシビリティ・ディバイドのブリッジ化 : 自動評価のための閉口式LCMの性能, 公正性, コスト
- Authors: Kezia Oketch, John P. Lalor, Yi Yang, Ahmed Abbasi,
- Abstract要約: 我々は、テキスト評価と自動エッセイスコアリングに関連する生成タスクにおいて、9つの主要な大規模言語モデル(LLM)を比較した。
その結果,Llama 3 や Qwen2.5 などのオープン LLM は GPT-4 に比較して,予測性能が向上することがわかった。
生成タスクにおいて、トップオープンLLMによって生成されたエッセイは、セマンティックコンポジション/埋め込みやML評価スコアの点から、クローズドLLMに匹敵するものである。
- 参考スコア(独自算出の注目度): 18.33969226071914
- License:
- Abstract: Closed large language models (LLMs) such as GPT-4 have set state-of-the-art results across a number of NLP tasks and have become central to NLP and machine learning (ML)-driven solutions. Closed LLMs' performance and wide adoption has sparked considerable debate about their accessibility in terms of availability, cost, and transparency. In this study, we perform a rigorous comparative analysis of nine leading LLMs, spanning closed, open, and open-source LLM ecosystems, across text assessment and generation tasks related to automated essay scoring. Our findings reveal that for few-shot learning-based assessment of human generated essays, open LLMs such as Llama 3 and Qwen2.5 perform comparably to GPT-4 in terms of predictive performance, with no significant differences in disparate impact scores when considering age- or race-related fairness. Moreover, Llama 3 offers a substantial cost advantage, being up to 37 times more cost-efficient than GPT-4. For generative tasks, we find that essays generated by top open LLMs are comparable to closed LLMs in terms of their semantic composition/embeddings and ML assessed scores. Our findings challenge the dominance of closed LLMs and highlight the democratizing potential of open LLMs, suggesting they can effectively bridge accessibility divides while maintaining competitive performance and fairness.
- Abstract(参考訳): GPT-4のような閉じた大規模言語モデル(LLM)は、多くのNLPタスクに最先端の結果を設定し、NLPおよび機械学習(ML)駆動ソリューションの中心となった。
LLMのパフォーマンスと広範な採用が閉鎖され、可用性、コスト、透明性の観点からアクセシビリティーに関する大きな議論が巻き起こった。
本研究では,テキスト評価と自動エッセイスコアリングに関連する生成タスクを対象とし,9つの主要なLCMエコシステムの厳密な比較分析を行った。
その結果,Llama 3 や Qwen2.5 などのオープン LLM は,人為的エッセイを数点の学習で評価する上で,GPT-4 に比較して有意な性能を示し,年齢や人種によるフェアネスを考慮した場合の異なる影響スコアに有意差は認められなかった。
さらに、Llama 3は、GPT-4の37倍のコスト効率でかなりのコスト上の利点を提供する。
生成タスクにおいて、トップオープンLLMによって生成されたエッセイは、セマンティックコンポジション/埋め込みやML評価スコアの点から、クローズドLLMに匹敵するものである。
本研究は, 閉LLMの優位性に挑戦し, オープンLLMの民主化の可能性を強調し, 競争性能と公正性を維持しつつ, アクセシビリティの分割を効果的に橋渡しできることを示唆する。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques [14.230480872339463]
本稿では,複数の大規模言語モデル(LLM)が2つのSQAタスク(障害局所化と脆弱性検出)にまたがる機能について検討する。
LLMの結果を組み合わせる投票機構を実装することで,両タスクにおいてGPT-3.5よりも10%以上の改善を実現した。
このアプローチにより、障害のローカライゼーションが16%、脆弱性検出が12%、GPT-3.5が4%向上した。
論文 参考訳(メタデータ) (2024-09-02T07:26:19Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Fairness in Large Language Models: A Taxonomic Survey [2.669847575321326]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
多くの実世界のアプリケーションで有望な性能を示したにもかかわらず、これらのアルゴリズムのほとんどは公平さを考慮に入れていない。
論文 参考訳(メタデータ) (2024-03-31T22:22:53Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs
for Financial Sentiment Analysis [0.0]
我々は、財務分野のデータセット上で、コンテキスト内学習と微調整LDMの2つのアプローチを採用する。
以上の結果から, 微調整された小型LCMは, 最先端の微調整LDMに匹敵する性能を達成できることが示唆された。
文脈内学習におけるショット数が増加すると、財務領域の感情分析のパフォーマンスが向上することはない。
論文 参考訳(メタデータ) (2023-12-14T08:13:28Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。