論文の概要: LLMs Judge Themselves: A Game-Theoretic Framework for Human-Aligned Evaluation
- arxiv url: http://arxiv.org/abs/2510.15746v1
- Date: Fri, 17 Oct 2025 15:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.682777
- Title: LLMs Judge Themselves: A Game-Theoretic Framework for Human-Aligned Evaluation
- Title(参考訳): LLMs Judge Themselves: ヒューマンアライメント評価のためのゲーム理論フレームワーク
- Authors: Gao Yang, Yuhang Liu, Siyu Miao, Xinyue Liang, Zhengyang Liu, Heyan Huang,
- Abstract要約: 本研究は,ゲーム理論の原理が大規模言語モデル(LLM)の評価に効果的に適用できるかどうかを考察する。
そこで我々は,LLMが自己再生とピアレビューを通じて相互の出力を評価できる新しい代替案を提案する。
本フレームワークでは,ゲーム理論の投票アルゴリズムを組み込んでピアレビューを集約し,モデル生成ランキングが人間の嗜好を反映するかどうかを原則的に調査する。
- 参考スコア(独自算出の注目度): 41.42324204820521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ideal or real - that is the question.In this work, we explore whether principles from game theory can be effectively applied to the evaluation of large language models (LLMs). This inquiry is motivated by the growing inadequacy of conventional evaluation practices, which often rely on fixed-format tasks with reference answers and struggle to capture the nuanced, subjective, and open-ended nature of modern LLM behavior. To address these challenges, we propose a novel alternative: automatic mutual evaluation, where LLMs assess each other's output through self-play and peer review. These peer assessments are then systematically compared with human voting behavior to evaluate their alignment with human judgment. Our framework incorporates game-theoretic voting algorithms to aggregate peer reviews, enabling a principled investigation into whether model-generated rankings reflect human preferences. Empirical results reveal both convergences and divergences between theoretical predictions and human evaluations, offering valuable insights into the promises and limitations of mutual evaluation. To the best of our knowledge, this is the first work to jointly integrate mutual evaluation, game-theoretic aggregation, and human-grounded validation for evaluating the capabilities of LLMs.
- Abstract(参考訳): 本稿では,ゲーム理論の原理を大規模言語モデル(LLM)の評価に効果的に適用できるかどうかを考察する。
この調査は従来の評価手法の不十分さの増大に起因し、しばしば参照された回答を伴う定型的なタスクに頼り、現代のLLM行動のニュアンス、主観、オープンな性質を捉えるのに苦労する。
これらの課題に対処するために,LLMが自己再生とピアレビューを通じて相互の出力を評価するという,新たな代替案を提案する。
これらのピアアセスメントは、人間の投票行動と体系的に比較され、人間の判断との整合性を評価する。
本フレームワークでは,ゲーム理論の投票アルゴリズムを組み込んでピアレビューを集約し,モデル生成ランキングが人間の嗜好を反映するかどうかを原則的に調査する。
実証的な結果は、理論的な予測と人間の評価の収束と分岐の両方を明らかにし、相互評価の約束と限界に関する貴重な洞察を提供する。
我々の知る限りでは、LLMの能力を評価するための相互評価、ゲーム理論集約、人為的検証を共同で統合する最初の試みである。
関連論文リスト
- The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Evaluating Agents using Social Choice Theory [20.58298173034909]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。