論文の概要: Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals
- arxiv url: http://arxiv.org/abs/2605.04236v2
- Date: Thu, 14 May 2026 11:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 03:05:58.782845
- Title: Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals
- Title(参考訳): 逐次エビデンス蓄積によるLCMアンサンブルの適応的コンセンサス:自動予算同定と校正コミット信号
- Authors: Roberto E. Medina,
- Abstract要約: DASEは、ベンチマークをまたいで一般化するコミット型ルーティングパーティションを生成する。
インジェクション帯域ではなく、適応的な停止が正確さを駆動する。
インジェクションベースの手法は、逆Uの精度-vs-推論軌道を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model ensembles improve reasoning accuracy, but only up to a performance boundary beyond which additional deliberation degrades accuracy. We introduce DASE (Deliberative Adaptive Stopping Ensemble), a stopping heuristic for iterative ensemble deliberation that commits early on genuine consensus and applies a global-frequency fallback on fragmented evidence. We make three contributions. (1) DASE produces a commit-type routing partition that generalises across benchmarks and is complementary to verbalized single-call confidence. On GPQA-Extended (N=546, 70B ensemble), the partition yields a 39.5 pp routing gap (right-wall 81.1% vs. left-wall 41.5%). On AIME 2010-2023 (N=261, 120B ensemble, 3 seeds), right-wall commits reach 98.3% accuracy vs. left-wall 72.8% (25.5 pp gap), statistically equivalent to Opus 4.6 Standard verbalized confidence at matched coverage (25.7 pp gap; bootstrap p=0.873); the two mechanisms disagree on 37% of routing assignments. (2) Adaptive stopping, not injection bandwidth, drives accuracy. On AIME-300, bandwidth accounts for only 0.3 pp (ns). On GPQA-Extended at the 120B tier, sparse injection ($\approx15$ tokens/worker/round) achieves 70.9% with a 30.7 pp routing gap; dense injection ($\approx600$ chars/worker/round) achieves 72.2% but with halved right-wall coverage and a narrower 18.9 pp gap. (3) Injection-based methods exhibit an inverted-U accuracy-vs-inference trajectory; this pattern is hypothesis-generating.
- Abstract(参考訳): 大きな言語モデルアンサンブルは推論の精度を改善するが、さらなる検討が正確さを低下させるパフォーマンス境界だけに限られる。
DASE(Deliberative Adaptive Stopping Ensemble)は,本質的なコンセンサスに早期にコミットし,断片化された証拠にグローバル周波数のフォールバックを適用した,反復的なアンサンブル検討のための停止ヒューリスティックである。
私たちは3つの貢献をします。
1) DASEは、ベンチマークをまたいだ一般的なコミット型ルーティングパーティションを生成し、言語化された単一コールの信頼性を補完する。
GPQA-Extended (N=546, 70B アンサンブル)では、パーティションは39.5ppのルーティングギャップ(右壁81.1%と左壁41.5%)が得られる。
AIME 2010-2023 (N=261, 120B アンサンブル、3シード)では、右壁のコミットは98.3%、左壁のコミットは72.8%(25.5pp間隔)、統計学的にはOpus 4.6と同等で、一致したカバレッジ(25.7pp間隔、ブートストラップp=0.873)の標準言語化信頼度(25.7pp間隔、ブートストラップp=0.873間隔)である。
2) インジェクション帯域ではなく,適応停止により精度が向上する。
AIME-300では、帯域幅は0.3 pp (ns) である。
120B層で拡張されたGPQA-exendedでは、スパースインジェクション("\approx15$ tokens/worker/round")は30.7ppのルーティングギャップで70.9%、高密度インジェクション("\approx600$ chars/worker/round")は72.2%、右壁カバレッジは半分、幅は18.9ppである。
(3) インジェクションに基づく手法は逆Uの精度-vs-推論軌道を示し,このパターンは仮説生成である。
関連論文リスト
- ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis [0.6372261626436676]
ContraPromptは、モデルが失敗してもフィードバックで再試行を成功させる場合、その差が最適化信号を構成するという観測に基づいて構築される。
従来のコントラスト法とは異なり、完全な中間的推論過程を比較する。
ContraPromptは11日にGEPAを41で破り、同じ予算で1で敗れた。
論文 参考訳(メタデータ) (2026-04-20T08:17:15Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Scalable Multi-Task Low-Rank Model Adaptation [43.22544779625565]
マルチタスク低ランク適応(LoRA)を多数のタスクに拡張すると、破滅的なパフォーマンス劣化を引き起こす。
規則化や動的ルーティングのような既存のソリューションは、基本的なトレードオフによって制約されるため、スケールで失敗するのです。
3つの新しい設計を持つスケーラブルなソリューションであるmtLoRAを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:57:11Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。