論文の概要: Debate, Deliberate, Decide (D3): A Cost-Aware Adversarial Framework for Reliable and Interpretable LLM Evaluation
- arxiv url: http://arxiv.org/abs/2410.04663v3
- Date: Sat, 11 Oct 2025 20:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:07.950623
- Title: Debate, Deliberate, Decide (D3): A Cost-Aware Adversarial Framework for Reliable and Interpretable LLM Evaluation
- Title(参考訳): Debate, Deliberate, Decide (D3) : 信頼性と解釈可能なLCM評価のための費用対向フレームワーク
- Authors: Chaithanya Bandi, Abir Harrasse,
- Abstract要約: 本稿では、役割特化エージェント間の構造的議論を組織化する、費用対効果のある多エージェントフレームワークであるDebate, Deliberate, Decide(D3)を紹介する。
我々は,反復的議論の下で信頼性と収束性を特徴付けるスコアギャップの確率論的モデルを開発する。
我々は,人間の判断に対する最先端の合意,匿名化による位置バイアスと冗長性バイアスの低減,そして,適切な費用対精度のフロンティアを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of Large Language Models (LLMs) remains challenging due to inconsistency, bias, and the absence of transparent decision criteria in automated judging. We present Debate, Deliberate, Decide (D3), a cost-aware, adversarial multi-agent framework that orchestrates structured debate among role-specialized agents (advocates, a judge, and an optional jury) to produce reliable and interpretable evaluations. D3 instantiates two complementary protocols: (1) Multi-Advocate One-Round Evaluation (MORE), which elicits k parallel defenses per answer to amplify signal via diverse advocacy, and (2) Single-Advocate Multi-Round Evaluation (SAMRE) with budgeted stopping, which iteratively refines arguments under an explicit token budget and convergence checks. We develop a probabilistic model of score gaps that (i) characterizes reliability and convergence under iterative debate and (ii) explains the separation gains from parallel advocacy. Under mild assumptions, the posterior distribution of the round-r gap concentrates around the true difference and the probability of mis-ranking vanishes; moreover, aggregating across k advocates provably increases expected score separation. We complement theory with a rigorous experimental suite across MT-Bench, AlignBench, and AUTO-J, showing state-of-the-art agreement with human judgments (accuracy and Cohen's kappa), reduced positional and verbosity biases via anonymization and role diversification, and a favorable cost-accuracy frontier enabled by budgeted stopping. Ablations and qualitative analyses isolate the contributions of debate, aggregation, and anonymity. Together, these results establish D3 as a principled, practical recipe for reliable, interpretable, and cost-aware LLM evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、不整合、バイアス、および自動判定における透明な決定基準の欠如により、依然として困難である。
本稿では、役割特化エージェント(擁護者、裁判官、オプション審査員)間での議論を組織化し、信頼性と解釈可能な評価を行う、費用対効果のある多エージェントフレームワークであるDebate, Deliberate, Decide(D3)を紹介する。
D3は,(1)多元的一元的評価(MORE, Multi-Advocate One-Round Evaluation)と(2)多元的評価(SAMRE, Single-Advocate Multi-Round Evaluation)の2つの補完プロトコルをインスタンス化する。
我々はスコアギャップの確率モデルを開発する。
一 反復討論における信頼性及び収束を特徴付けること
(ii) 平行アドボケートによる分離の利得を説明する。
軽度の仮定では、円-rギャップの後方分布は真の差と誤ランクの確率に焦点を合わせ、さらに k をまたいだ集合は期待されるスコアの分離を確実に増加させる。
我々は,MT-Bench,AlignBench,AUTO-Jの厳密な実験スイートを用いて理論を補完し,人間の判断(精度とコーエンのカッパ)との最先端の合意,匿名化と役割の多様化による位置性および冗長性バイアスの低減,予算的停止によって実現可能なコスト・正確性フロンティアについて検討した。
アブレーションと質的な分析は、議論、集約、匿名性の貢献を分離する。
これらの結果はD3を信頼性,解釈性,コストを考慮したLCM評価のための原則的,実践的なレシピとして確立する。
関連論文リスト
- Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement [43.532921045069365]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクにおいて、新しい標準を設定し続けている。
静的な知識蒸留、人間からのフィードバックからのリソース集約的な強化学習、あるいは限られた自己回帰のような現在の技術は、実質的で持続的なパフォーマンス向上をもたらす。
本稿では、より小さなモデルとより強力な教師モデルの間でのマルチターン議論を編成し、実用的なフィードバックを導き出す新しいリフレクション・アンド・ディベート(D&R)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-04T03:52:20Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。
本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文 参考訳(メタデータ) (2025-04-24T15:55:10Z) - Debate-Feedback: A Multi-Agent Framework for Efficient Legal Judgment Prediction [7.196065223124077]
本稿では,Debate-Feedbackアーキテクチャに基づく新たな法的判断予測モデルを提案する。
従来の手法とは異なり、我々のモデルは大規模な歴史的データセットの必要性を最小限に抑え、効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-07T09:34:14Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。
本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models [14.405446719317291]
既存のデバイアス技術はトレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするのが一般的である。
我々は,システム2の思考プロセスを適用し,論理的,反射的,批判的テキスト生成を誘導する,包括的エンドユーザー中心のデバイアスの反復的枠組みを評価する。
論文 参考訳(メタデータ) (2024-05-16T20:27:58Z) - DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。
フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。
エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-16T09:41:12Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large
Language Models [31.426274932333264]
自動側評価から結果をインタラクティブに分析する新しいビジュアル分析ツールであるComparatorを提案する。
このツールは、モデルがベースラインモデルよりも優れているか悪いかを、ユーザがいつ、なぜ理解するかを対話的にサポートする。
論文 参考訳(メタデータ) (2024-02-16T09:14:49Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。