論文の概要: LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations
- arxiv url: http://arxiv.org/abs/2504.19076v1
- Date: Sun, 27 Apr 2025 02:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.121454
- Title: LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations
- Title(参考訳): LLM評価 : LLM評価の妥当性の展望
- Authors: Laura Dietz, Oleg Zendel, Peter Bailey, Charles Clarke, Ellese Cotterill, Jeff Dalton, Faegheh Hasibi, Mark Sanderson, Nick Craswell,
- Abstract要約: 大規模言語モデル (LLM) は情報システムを評価するためにますます使われている。
近年の研究では、LLMに基づく評価は人間の判断とよく一致することが示唆されている。
本稿では,LCM評価者が誤って成功を示すシナリオについて検討する。
- 参考スコア(独自算出の注目度): 29.031539043555362
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to evaluate information retrieval (IR) systems, generating relevance judgments traditionally made by human assessors. Recent empirical studies suggest that LLM-based evaluations often align with human judgments, leading some to suggest that human judges may no longer be necessary, while others highlight concerns about judgment reliability, validity, and long-term impact. As IR systems begin incorporating LLM-generated signals, evaluation outcomes risk becoming self-reinforcing, potentially leading to misleading conclusions. This paper examines scenarios where LLM-evaluators may falsely indicate success, particularly when LLM-based judgments influence both system development and evaluation. We highlight key risks, including bias reinforcement, reproducibility challenges, and inconsistencies in assessment methodologies. To address these concerns, we propose tests to quantify adverse effects, guardrails, and a collaborative framework for constructing reusable test collections that integrate LLM judgments responsibly. By providing perspectives from academia and industry, this work aims to establish best practices for the principled use of LLMs in IR evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は情報検索(IR)システムの評価にますます使われ、人間の評価者が伝統的に行ってきた関連判断を生成する。
近年の実証研究は、LLMに基づく評価が人間の判断とよく一致することを示唆し、人間の判断はもはや必要ないかもしれないと示唆する者もいれば、判断の信頼性、妥当性、長期的影響に関する懸念を強調する者もいる。
IRシステムがLCM生成シグナルを取り入れ始めると、評価結果は自己強化のリスクを伴い、誤解を招く可能性がある。
本稿では, LLMに基づく判断がシステム開発と評価の両方に影響を及ぼす場合において, LLM評価者が誤って成功を示すシナリオについて検討する。
バイアス強化、再現性の問題、評価方法論の不整合など、主要なリスクを強調します。
これらの問題に対処するため, 副作用, ガードレールの定量化, およびLCM判断を責任を持って組み込んだ再利用可能なテストコレクションを構築するための協調フレームワークを提案する。
本研究は, 学術・産業の視点から, IR評価におけるLCMの原則的活用のためのベストプラクティスを確立することを目的としている。
関連論文リスト
- An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - LLM-based relevance assessment still can't replace human relevance assessment [12.829823535454505]
近年の研究では、情報検索における関連性評価のための大規模言語モデル(LLM)が、人間の判断に匹敵する評価をもたらすことが示唆されている。
Upadhyayらは、LLMに基づく関連性評価は、TRECスタイルの評価における従来の人間関連性評価を完全に置き換えることができると主張している。
本稿ではこの主張を批判的に検証し、この結論の妥当性を損なう実践的・理論的制約を強調した。
論文 参考訳(メタデータ) (2024-12-22T20:45:15Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文 参考訳(メタデータ) (2024-07-04T17:15:37Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom [19.104850413126066]
大規模言語モデル(LLM)の協調学習のための有望なソリューションとして、フェデレートラーニング(FL)が登場した。
ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーする。
我々は、ラベル付きテストセットや外部ツールに依存することなく、下流タスクにおけるLCMの信頼性の高い性能測定を提供するFedEval-LLMを提案する。
論文 参考訳(メタデータ) (2024-04-18T15:46:26Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。