論文の概要: Do Before You Judge: Self-Reference as a Pathway to Better LLM Evaluation
- arxiv url: http://arxiv.org/abs/2509.19880v1
- Date: Wed, 24 Sep 2025 08:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.737443
- Title: Do Before You Judge: Self-Reference as a Pathway to Better LLM Evaluation
- Title(参考訳): 判断する前に - LLM評価を改善するための道としての自己参照
- Authors: Wei-Hsiang Lin, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen,
- Abstract要約: LLM-as-Judgeフレームワークは、AI評価でますます人気がある。
モデルの生成と判断能力の関係に関する研究結果は相容れないままである。
本稿では,モデル自身の回答を参照として活用する自己参照型評価戦略を提案する。
- 参考スコア(独自算出の注目度): 22.409170147732464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-Judge frameworks are increasingly popular for AI evaluation, yet research findings on the relationship between models' generation and judgment abilities remain inconsistent. We investigate this relationship through systematic dataset- and instance-level analyses across 11 models and 21 diverse tasks. Despite both capabilities relying on the same underlying knowledge, our analyses reveal they are only weakly correlated, primarily due to LLMs' sensitivity to the responses being judged. To address this, we propose a self-reference-guided evaluation strategy that leverages a model's own answers as references. This approach significantly strengthens the correlation between generation and judgment abilities, offering a practical path to align these skills and providing a reliable proxy for model selection in evaluation tasks.
- Abstract(参考訳): LLM-as-JudgeフレームワークはAI評価でますます人気があるが、モデルの生成と判断能力の関係に関する研究結果は相容れないままである。
本研究は,11種類のモデルと21種類のタスクを対象とした,系統的なデータセットとインスタンスレベルの分析を通じて,この関係を考察する。
どちらの能力も、同じ基礎知識に依存しているが、我々の分析では、LLMsの応答に対する感度が判断されるため、これらは弱い相関しか示していない。
そこで本研究では,モデル自身の回答を参照として活用する自己参照型評価戦略を提案する。
このアプローチは、生成能力と判断能力の相関を著しく強化し、これらのスキルを整合させる実践的な経路を提供し、評価タスクにおけるモデル選択のための信頼性の高いプロキシを提供する。
関連論文リスト
- When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。