論文の概要: Multi-Agent Debate for LLM Judges with Adaptive Stability Detection
- arxiv url: http://arxiv.org/abs/2510.12697v1
- Date: Tue, 14 Oct 2025 16:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.394543
- Title: Multi-Agent Debate for LLM Judges with Adaptive Stability Detection
- Title(参考訳): 適応的安定検出を用いたLLM判定のためのマルチエージェント議論
- Authors: Tianyu Hu, Zhen Tan, Song Wang, Huaizhi Qu, Tianlong Chen,
- Abstract要約: エージェントが協調して判断し、反復的に応答を洗練するマルチエージェントの議論判断フレームワークを提案する。
議論の過程を数学的に定式化し、エージェントの相互作用を分析し、議論が静的アンサンブルと比較して正確さを増幅することを証明する。
複数のベンチマークやモデルを用いた実験により,本フレームワークは計算効率を維持しつつ,多数決よりも判定精度を向上させることが示された。
- 参考スコア(独自算出の注目度): 46.67172123607961
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With advancements in reasoning capabilities, Large Language Models (LLMs) are increasingly employed for automated judgment tasks. While LLMs-as-Judges offer promise in automating evaluations, current approaches often rely on simplistic aggregation methods (e.g., majority voting), which can fail even when individual agents provide correct answers. To address this, we propose a multi-agent debate judge framework where agents collaboratively reason and iteratively refine their responses. We formalize the debate process mathematically, analyzing agent interactions and proving that debate amplifies correctness compared to static ensembles. To enhance efficiency, we introduce a stability detection mechanism that models judge consensus dynamics via a time-varying Beta-Binomial mixture, with adaptive stopping based on distributional similarity (Kolmogorov-Smirnov test). This mechanism models the judges' collective correct rate dynamics using a time-varying mixture of Beta-Binomial distributions and employs an adaptive stopping criterion based on distributional similarity (Kolmogorov-Smirnov statistic). Experiments across multiple benchmarks and models demonstrate that our framework improves judgment accuracy over majority voting while maintaining computational efficiency.
- Abstract(参考訳): 推論能力の進歩に伴い、Large Language Models (LLM) は自動判断タスクにますます採用されている。
LLMs-as-Judgesは評価の自動化を約束するが、現在のアプローチは単純な集約手法(例えば多数決)に依存しており、個々のエージェントが正しい回答を下しても失敗することがある。
これを解決するために,エージェントが協調して判断し,反復的に応答を洗練するマルチエージェント・ディベート・ジャッジ・フレームワークを提案する。
議論の過程を数学的に定式化し、エージェントの相互作用を分析し、議論が静的アンサンブルと比較して正確さを増幅することを証明する。
効率を向上させるため,時間変化したβ-Binomial混合体を用いてコンセンサス力学をモデル化し,分布類似性に基づく適応的な停止(コルモゴロフ-スミルノフ試験)を行う安定性検出機構を導入する。
このメカニズムは、β-二項分布の時間変化混合を用いて裁判官の集合的正率ダイナミクスをモデル化し、分布の類似性に基づく適応的な停止基準(コルモゴロフ・スミルノフ統計学)を用いる。
複数のベンチマークやモデルを用いた実験により,本フレームワークは計算効率を維持しつつ,多数決よりも判定精度を向上させることが示された。
関連論文リスト
- Mitigating Judgment Preference Bias in Large Language Models through Group-Based Polling [26.377421806098187]
自動評価器としての大規模言語モデル(LLM)が注目されている。
LLMは自分自身が生み出す反応を好む傾向があり、判断の信頼性を損なう。
本稿では,教師なしマルチエージェント協調最適化フレームワークであるグループベースポーリング最適化(Genii)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T12:32:31Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - A Multi-To-One Interview Paradigm for Efficient MLLM Evaluation [63.76972456980632]
効率的なMLLM評価のためのマルチツーワンインタビューパラダイムを提案する。
本フレームワークは, (i) 事前面接と形式面接の2段階面接戦略, (ii) 公平性を確保するための重みの動的調整, (iii) 質問難度選択のための適応的メカニズムから構成される。
論文 参考訳(メタデータ) (2025-09-18T12:07:40Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Decoding AI Judgment: How LLMs Assess News Credibility and Bias [33.7054351451505]
大規模言語モデル(LLM)は、評価プロセスを含む言語にますます組み込まれています。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家評価(NewsGuardとMedia Bias/Fact Check(MBFC))と、制御された実験を通して収集された人間の判断に対する6つのLCMをベンチマークする。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges [21.580762639442913]
推論中に選択バイアスを緩和する新しいラベルフリー手法であるCalibraEvalを紹介する。
CalibraEvalは、バイアスのない予測分布に合わせて観測された予測分布を調整するための最適化タスクとしてデバイアスを再構成する。
本稿では,CalibraEvalが選択バイアスを効果的に軽減し,既存のデバイアス法と比較して性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-20T13:47:39Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。