論文の概要: Statistical Scouting Finds Debate-Safe but Not Debate-Useful Cases: A Matched-Ceiling Study of Open-Weight LLM Reasoning Protocols
- arxiv url: http://arxiv.org/abs/2605.09618v1
- Date: Sun, 10 May 2026 15:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.336331
- Title: Statistical Scouting Finds Debate-Safe but Not Debate-Useful Cases: A Matched-Ceiling Study of Open-Weight LLM Reasoning Protocols
- Title(参考訳): 統計的スカウティングは安全だが有益ではない:オープンウェイトLDM推論プロトコルの整合性の検討
- Authors: Julia Hu, Alfred Shen, Kumar Lakshmipathi,
- Abstract要約: 我々は,無意味な復号化,3サンプル投票,および MuSiQue と GSM8K に関する2段階の批判・修正の議論を評価する。
MuSiQueでは、例ごとに正しいプロトコルを選択するオラクルが、最良の固定されたプロトコルよりも+14.0と+13.7ppを得る。
投票エントロピー閾値は、両モデルで最高の固定プロトコルを順に打ち負かす唯一のコントローラである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When should a language model answer directly, sample and vote, or engage in multi-agent debate? Recent work shows voting often explains much of the gain attributed to debate, while selective-debate systems activate deliberation only on uncertain examples. We ask: under a matched ceiling on generated tokens (960 per example), how much per-example routing headroom exists, and how much is recoverable from cheap pre-deliberation signals? We evaluate greedy decoding, three-sample voting, and a two-agent critique-revise debate on MuSiQue and GSM8K using Llama 3.1 8B Instruct and Ministral 3 8B Instruct. On MuSiQue, an oracle selecting the correct protocol per example gains +14.0 and +13.7 pp over the best fixed one. The best fixed protocol is model- and dataset-dependent: each (model, dataset) cell has a different winner. This headroom is hard to recover from cheap ex-ante signals. A vote-entropy threshold is the only controller that directionally beats the best fixed protocol on both models (+1.3 and +1.7 pp), though individual paired-bootstrap CIs include zero. A joint analysis (meta-analysis +1.6 pp, p=0.125; Bayesian P(both>0)=0.59) is directionally consistent but not significant. Learned controllers (LR, GBT) do not outperform the threshold. The key finding is structural: vote entropy predicts where debate is safe, not where debate is needed. High entropy sharply reduces debate backfire, but 66% of debate-helpful examples (31/47) occur when voting is unanimous but wrong. A single-prompt self-critique probe on Llama flips the answer in 127/127 unanimous cases, yielding zero mutual information with the debate-helpful label; we cannot rule out a prompt-compliance artifact, but either interpretation disqualifies the probe as a router. Recovering the remaining headroom requires behavioral probes that avoid format-compliance confounds at the 8B scale.
- Abstract(参考訳): 言語モデルはいつ、直接答えるか、サンプルと投票をするか、それともマルチエージェントの議論に参加するべきか?
最近の研究は、投票が議論に起因した利益の多くをしばしば説明していることを示しているが、選択討論システムは不確実な事例にのみ議論を活性化している。
生成されたトークン(例:960)にマッチした天井の下で、例ごとのルーティングヘッドルームはどれくらいあり、安価な事前検討信号から回復できるのか?
Llama 3.1 8B InstructとMinistral 3 8B Instructを用いて,greedy decoding, three-sample voting, and a two-agent critique-revise debate on MuSiQue and GSM8K using Llama 3.1 8B Instruct and Ministral 3 8B Instruct。
MuSiQueでは、例ごとに正しいプロトコルを選択するオラクルが、最良の固定されたプロトコルよりも+14.0と+13.7ppを得る。
最高の固定プロトコルはモデルに依存し、各(モデル、データセット)セルは異なる勝者を持つ。
このヘッドルームは安価な元アンティー信号から回復するのは難しい。
投票エントロピー閾値は両モデルで最高の固定プロトコル(+1.3と+1.7 pp)を順に破る唯一のコントローラであるが、ペアリングブートストラップCIはゼロである。
共同分析(メタ分析+1.6 pp, p=0.125; Bayesian P(both>0)=0.59)は、方向整合性はあるが有意ではない。
学習コントローラ(LR, GBT)は閾値を超えない。
投票エントロピーは、議論が必要な場所ではなく、議論が安全な場所を予測する。
高いエントロピーは議論のバックファイアを激減させるが、投票が全会一致だが間違っていた場合、66%の議論に満ちた例(31/47)が発生する。
Llama上の単発自己批判型プローブは127/127のケースで解を反転させ、議論に満ちたラベルとの相互情報をゼロにする。
残りのヘッドルームの復元には、8Bスケールでのフォーマット準拠のコンファウンドを避けるための行動プローブが必要である。
関連論文リスト
- SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation [6.604874054866016]
本稿では,証拠満足度がセットレベル特性であることを示す,透過的なアグリゲーションプロトコルSURE-RAGを提案する。
共有ペアレベルのクレームエビデンス検証器は、SURE-RAGが集約した局所的関係分布を解釈可能な応答レベル信号に生成する。
制御されたマルチホップベンチマークであるHotpotQA-RAG v3をアーティファクト・アウェア・プロトコルで評価した。
論文 参考訳(メタデータ) (2026-05-05T09:05:40Z) - The Cost of Consensus: Isolated Self-Correction Prevails Over Unguided Homogeneous Multi-Agent Debate [5.51170856062205]
2つの高拡散度ベンチマークにおいて、R=3$の討論ラウンドで均質なエージェントのチームについて検討する。
我々は、議論の失敗を3つのモデル依存の経路に分解する: サイコファン的整合性、ピア論理、コンセンサス崩壊。
その結果,7-8B パラメータクラスでは,構造的役割を持たない同種チームが非誘導的ピア交換の恩恵を受けないことが示唆された。
論文 参考訳(メタデータ) (2026-04-29T14:33:57Z) - From Debate to Decision: Conformal Social Choice for Safe Multi-Agent Deliberation [12.294365308421606]
我々は、議論のアウトプットを調整された行動逆エスカレート決定に変換する、ポストホックな意思決定層であるConformal Social Choiceを紹介する。
階層的なアクションポリシーは、シングルトンセットを自律的なアクションにマップし、より大きなセットを人間のエスカレーションにマップする。
この層は議論が確実に間違っている場合に作用しないため、残りの共形シングルトンは90.0--96.8%の精度に達する。
論文 参考訳(メタデータ) (2026-04-09T00:15:20Z) - Do Large Language Models Get Caught in Hofstadter-Mobius Loops? [0.0]
本稿では、現代のRLHF学習言語モデルが構造的に類似した矛盾の対象となっていることを論じる。
トレーニングプロセスは、ユーザの嗜好の遵守とユーザの意図に対する疑念を同時に報いる。
結果として生じる行動プロファイルは、クラークがHofstadter-Mobiusループと呼んだものと一致している。
論文 参考訳(メタデータ) (2026-03-10T20:43:37Z) - Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models [0.0]
政治学者は、自然言語処理ツールを採用する際に、適切な選択に直面している。
それぞれのアプローチは、パフォーマンス、コスト、必要な専門知識のスペクトルに関して異なるポイントを占めています。
本稿は、このトレードオフをナビゲートする方法に関する実証的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-03-10T12:42:12Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Global Constraints with Prompting for Zero-Shot Event Argument
Classification [49.84347224233628]
我々は、アノテーションやタスク固有のトレーニングを使わずに、イベント引数の分類に取り組むよう促すことで、グローバルな制約を利用することを提案する。
事前訓練された言語モデルは、新しいパスをスコアし、最初の予測を行う。
私たちの新しいプロンプトテンプレートは、手作業なしで、すべてのイベントや引数タイプに簡単に適応できます。
論文 参考訳(メタデータ) (2023-02-09T06:39:29Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。