論文の概要: DeliberationBench: When Do More Voices Hurt? A Controlled Study of Multi-LLM Deliberation Protocols
- arxiv url: http://arxiv.org/abs/2601.08835v1
- Date: Sun, 14 Dec 2025 10:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.65449
- Title: DeliberationBench: When Do More Voices Hurt? A Controlled Study of Multi-LLM Deliberation Protocols
- Title(参考訳): DeliberationBench: より多くの声はいつ鳴るか? : マルチLLM Deliberation Protocolの制御された研究
- Authors: Vaarunay Kaushal, Taranveer Singh,
- Abstract要約: 大規模言語モデルがコンセンサスを意図的に形成するマルチエージェントシステムは大きな注目を集めている。
3つの検討プロトコルを評価するベンチマークであるDELIBERATIONBENCHを紹介する。
ベストシングルベースラインは82.5%+-3.3%の勝利率を獲得し、最高の熟考プロトコルを劇的に上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems where Large Language Models (LLMs) deliberate to form consensus have gained significant attention, yet their practical value over simpler methods remains under-scrutinized. We introduce DELIBERATIONBENCH, a controlled benchmark evaluating three deliberation protocols against a strong baseline of selecting the best response from a pool of model outputs. Across 270 questions and three independent seeds (810 total evaluations), we find a striking negative result: the best-single baseline achieves an 82.5% +- 3.3% win rate, dramatically outperforming the best deliberation protocol(13.8% +- 2.6%). This 6.0x performance gap is statistically significant (p < 0.01) and comes at 1.5-2.5x higher computational cost. Our findings challenge assumptions that complexity enhances quality in multi-LLM systems.
- Abstract(参考訳): 大規模言語モデル(LLM)がコンセンサス形成を意図したマルチエージェントシステムは注目されているが、より単純な手法よりも実用的価値が過小評価されている。
DeLIBERATIONBENCHは、モデル出力のプールから最適な応答を選択する強力なベースラインに対して、3つの検討プロトコルを評価する制御ベンチマークである。
270の質問と3つの独立した種(810の総合評価)にまたがって、顕著なネガティブな結果が得られた: ベストシングルベースラインは82.5%+-3.3%の勝利率を獲得し、最高の熟考プロトコル(13.8%+-2.6%)を劇的に上回った。
この6.0倍のパフォーマンスギャップは統計的に有意であり(p < 0.01)、計算コストは1.5-2.5倍になる。
本研究は,複雑性がマルチLLMシステムの品質を向上させるという仮定に挑戦する。
関連論文リスト
- Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - MicroProbe: Efficient Reliability Assessment for Foundation Models with Minimal Data [0.0]
マイクロプローブは、戦略的に選択された100個のプローブ例のみを用いて、総合的な信頼性評価を行う。
マイクロプローブは, ランダムサンプリングベースラインに比べて23.5%高い信頼性を示す。
マイクロプローブは、信頼性評価を99.9%の統計力で完了し、評価コストの90%を削減し、従来の方法カバレッジの95%を維持する。
論文 参考訳(メタデータ) (2025-11-30T13:01:57Z) - CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent [46.41047559759938]
CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。
Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。
CUARewardBenchは4つの重要なコントリビューションから構成される。
論文 参考訳(メタデータ) (2025-10-21T12:53:40Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z) - RoundTable: Investigating Group Decision-Making Mechanism in Multi-Agent Collaboration [49.4875652673051]
複数ラウンドのコラボレーションにおいて、異なる投票ルールが意思決定の質と効率にどのように影響するかを分析する。
極端に言えば、全会一致投票は、最高のパフォーマンスの方法よりも87%低い初期パフォーマンスを与える。
本研究は,MASコラボレーションの最適化においてグループ意思決定が重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-11-11T17:37:47Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。