論文の概要: A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations
- arxiv url: http://arxiv.org/abs/2407.04069v1
- Date: Thu, 4 Jul 2024 17:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:14:12.605787
- Title: A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations
- Title(参考訳): 大規模言語モデルの評価に関する体系的調査と批判的レビュー:課題・限界・勧告
- Authors: Md Tahmid Rahman Laskar, Sawsan Alqahtani, M Saiful Bari, Mizanur Rahman, Mohammad Abdullah Matin Khan, Haidar Khan, Israt Jahan, Amran Bhuiyan, Chee Wei Tan, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty, Jimmy Huang,
- Abstract要約: 大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
- 参考スコア(独自算出の注目度): 35.12731651234186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently gained significant attention due to their remarkable capabilities in performing diverse tasks across various domains. However, a thorough evaluation of these models is crucial before deploying them in real-world applications to ensure they produce reliable performance. Despite the well-established importance of evaluating LLMs in the community, the complexity of the evaluation process has led to varied evaluation setups, causing inconsistencies in findings and interpretations. To address this, we systematically review the primary challenges and limitations causing these inconsistencies and unreliable evaluations in various steps of LLM evaluation. Based on our critical review, we present our perspectives and recommendations to ensure LLM evaluations are reproducible, reliable, and robust.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、様々なドメインで多様なタスクを実行する際、顕著な能力によって、大きな注目を集めている。
しかし、これらのモデルの徹底的な評価は、信頼性の高いパフォーマンスを実現するために、現実のアプリケーションにデプロイする前に不可欠である。
コミュニティにおけるLSMの評価の重要性は確立されているものの、評価プロセスの複雑さは様々な評価設定をもたらし、発見や解釈の不整合を引き起こしている。
そこで我々は,LLM評価の様々な段階において,これらの不整合や信頼できない評価の原因となる主な課題と限界を体系的に検討した。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
関連論文リスト
- A Survey on LLM-as-a-Judge [10.257160590560824]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。
LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文 参考訳(メタデータ) (2024-11-23T16:03:35Z) - ReIFE: Re-evaluating Instruction-Following Evaluation [105.75525154888655]
本稿では,25基のLDMと15の提案された評価プロトコルを含む,命令の完全なメタ評価について述べる。
評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。
論文 参考訳(メタデータ) (2024-10-09T17:14:50Z) - Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。
さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。
本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文 参考訳(メタデータ) (2024-07-29T03:37:14Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems [0.0]
生成的人工知能の台頭、特にLarge Language Models (LLMs) は、正確性とともに公正性を精査する衝動を強めている。
近年,レコメンデーションなどの領域におけるLCMの公平性評価が研究されている。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
論文 参考訳(メタデータ) (2024-01-08T17:57:29Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。