論文の概要: Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals
- arxiv url: http://arxiv.org/abs/2605.04236v1
- Date: Tue, 05 May 2026 19:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.509556
- Title: Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals
- Title(参考訳): 逐次エビデンス蓄積によるLCMアンサンブルの適応的コンセンサス:自動予算同定と校正コミット信号
- Authors: Roberto Medina,
- Abstract要約: 大きな言語モデルアンサンブルは、パフォーマンス境界までの推論精度を改善する。
DASE(Deliberative Adaptive Stopping Ensemble)は、真のコンセンサスを早期にコミットし、断片化された証拠にグローバル周波数のフォールバックを適用するアンサンブルである。
- 参考スコア(独自算出の注目度): 0.3384279376065155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model ensembles improve reasoning accuracy up to a performance boundary; beyond it, additional deliberation degrades accuracy. Static-budget methods cannot detect this boundary. Extended-thinking architectures compound the problem: a wrong answer after 120k tokens is indistinguishable from a correct one. We introduce DASE (Deliberative Adaptive Stopping Ensemble), a stopping heuristic for iterative ensemble deliberation that commits early on genuine consensus and applies a global-frequency fallback on fragmented evidence. Two configurations are evaluated: a persistence heuristic and DASE-Spatial (arena half-width W). Three contributions. (1) DASE produces a commit-type routing partition complementary to verbalized single-call confidence. On a contamination-controlled corpus (AIME 2010-2023, N=254, 3 seeds), a 120B ensemble achieves a 24.8 pp routing gap (right-wall 97.1% vs. left-wall 73.6%), statistically equivalent to Opus 4.6 Standard verbalized confidence at coverage-matched threshold (25.7 pp gap; bootstrap CI on difference: [-12.0, +10.3] pp, p=0.873). The two mechanisms disagree on 27% of routing assignments, establishing them as complements rather than substitutes; every DASE decision is accompanied by a machine-readable deliberation record. (2) Adaptive stopping, not injection bandwidth, drives accuracy gains. On AIME-300, bandwidth accounts for only 0.3 pp (ns); on GPQA-Extended, 4.4 pp bandwidth versus 5.0 pp stopping effect. DASE-Spatial ties Debate-Dense at its optimal budget using one-tenth the injection bandwidth and identifies that budget automatically; W=8 (65.0%) significantly outperforms W=4 (59.3%) on AIME-300 (adj p=0.0042). (3) Injection-based methods exhibit a retrospective accuracy-vs-inference inverted-U on both benchmarks; this pattern is hypothesis-generating for future work.
- Abstract(参考訳): 大きな言語モデルアンサンブルは、パフォーマンス境界までの推論精度を改善する。
静的予算法はこの境界を検出できない。
120kトークン以降の間違った回答は、正しいものとは区別できない。
DASE(Deliberative Adaptive Stopping Ensemble)は,本質的なコンセンサスに早期にコミットし,断片化された証拠にグローバル周波数のフォールバックを適用した,反復的なアンサンブル検討のための停止ヒューリスティックである。
永続ヒューリスティックとDASE-Spatial(半幅W)の2つの構成が評価される。
3つの貢献。
1) DASEは, 言語化された単一呼び出し信頼度に相補的なコミット型ルーティング分割を生成する。
汚染制御されたコーパス(AIME 2010-2023, N=254, 3 seed)では、120Bアンサンブルは24.8ppのルーティングギャップ(右壁97.1%対左壁73.6%)を達成する。
2つのメカニズムはルーティングの割り当ての27%に一致せず、代用ではなく補足として確立している。
2) インジェクション帯域ではなく、適応停止により精度が向上する。
AIME-300では、帯域幅は0.3pp (ns)、GPQA-Extendedでは4.4pp、停止効果は5.0ppである。
DASE-Spatial ties Debate-Denseは、注入帯域幅の10分の1を使用して最適な予算で、その予算を自動的に特定し、W=8(65.0%)は、AIME-300(adj p=0.0042)においてW=4(59.3%)より著しく上回る。
(3) インジェクションに基づく手法は,両ベンチマークで再現精度-vs-inference inverted-Uを示す。
関連論文リスト
- ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis [0.6372261626436676]
ContraPromptは、モデルが失敗してもフィードバックで再試行を成功させる場合、その差が最適化信号を構成するという観測に基づいて構築される。
従来のコントラスト法とは異なり、完全な中間的推論過程を比較する。
ContraPromptは11日にGEPAを41で破り、同じ予算で1で敗れた。
論文 参考訳(メタデータ) (2026-04-20T08:17:15Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Scalable Multi-Task Low-Rank Model Adaptation [43.22544779625565]
マルチタスク低ランク適応(LoRA)を多数のタスクに拡張すると、破滅的なパフォーマンス劣化を引き起こす。
規則化や動的ルーティングのような既存のソリューションは、基本的なトレードオフによって制約されるため、スケールで失敗するのです。
3つの新しい設計を持つスケーラブルなソリューションであるmtLoRAを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:57:11Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。