Fugu-MT 論文翻訳(概要): ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference

論文の概要: ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference

arxiv url: http://arxiv.org/abs/2602.23681v1
Date: Fri, 27 Feb 2026 05:22:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.262457
Title: ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference
Title（参考訳）: ODAR: アクティブ推論によるLLM推論のための原則的適応ルーティング
Authors: Siyuan Ma, Bo Gao, Xiaojun Jia, Simeng Qin, Tianlin Li, Ke Ma, Xiaoshuang Jia, Wenqi Ren, Yang Liu,
Abstract要約: ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
参考スコア（独自算出の注目度）: 60.958331943869126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The paradigm of large language model (LLM) reasoning is shifting from parameter scaling to test-time compute scaling, yet many existing approaches still rely on uniform brute-force sampling (for example, fixed best-of-N or self-consistency) that is costly, hard to attribute, and can trigger overthinking with diminishing returns. We propose ODAR-Expert, an adaptive routing framework that optimizes the accuracy-efficiency trade-off via principled resource allocation. ODAR uses a difficulty estimator grounded in amortized active inference to dynamically route queries between a heuristic Fast Agent and a deliberative Slow Agent. We further introduce a free-energy-principled, risk-sensitive fusion mechanism that selects answers by minimizing a variational free energy objective, balancing log-likelihood with epistemic uncertainty (varentropy) as a principled alternative to ad hoc voting over heterogeneous candidates. Extensive evaluation across 23 benchmarks shows strong and consistent gains, including 98.2% accuracy on MATH and 54.8% on Humanity's Last Exam (HLE), while improving the compute-accuracy frontier under compute-matched settings. We also validate reproducibility on a fully open-source stack (Llama 4 + DeepSeek), where ODAR surpasses homogeneous sampling strategies while reducing computational costs by 82%. Overall, our results suggest that thinking-optimal scaling requires adaptive resource allocation with free-energy-based decision-making rather than simply increasing test-time compute.
Abstract（参考訳）: 大規模言語モデル(LLM)推論のパラダイムは、パラメータスケーリングからテストタイムの計算スケーリングへとシフトしていますが、既存の多くのアプローチでは、コストがかかり、特性が悪く、リターンが低下して過度に考え直してしまうような、統一的なブルートフォースサンプリング(例えば、固定されたベストオブNや自己整合性)に依存しています。本稿では,ODAR-Expertを提案する。ODAR-Expertは,リソース割り当てを原則として,精度と効率のトレードオフを最適化する適応型ルーティングフレームワークである。 ODARは、アモータイズされたアクティブ推論に基づいて、ヒューリスティックなFast AgentとDeliberative Slow Agentの間のクエリを動的にルーティングする難易度推定器を使用する。さらに、異種候補に対するアドホック投票の原則として、対数的不確実性(バレントロピー)と対数的不確実性(バレントロピー)のバランスを保ち、変動自由エネルギーの目標を最小化することにより、回答を選択する自由エネルギーを前提としたリスク感受性融合機構を導入する。 23ベンチマークにわたる大規模な評価では、MATHの98.2%の精度とHumanityのLast Exam(HLE)の54.8%の精度を含む、強い一貫したゲインを示し、計算整合設定下での計算精度のフロンティアを改善している。完全オープンソーススタック(Llama 4 + DeepSeek)上では,ODARが計算コストを82%削減しつつ,同質なサンプリング戦略を超越した再現性を検証した。以上の結果から, 思考-最適スケーリングは, 単にテスト時間計算を増やすのではなく, 自由エネルギーに基づく意思決定による適応的な資源配分を必要とすることが示唆された。

関連論文リスト

Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文参考訳（メタデータ） (2026-02-14T08:01:41Z)
What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文参考訳（メタデータ） (2026-02-01T07:30:22Z)
Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward [24.738836592075927]
本稿では, セマンティック情報獲得報酬による効果的な情報探索を動機付ける統合フレームワークを提案する。 7つの質問回答ベンチマークでの実験では、InfoReasonerは強力な検索強化ベースラインを一貫して上回っている。我々の研究は、理論的に基礎を置き、検索を伴うエージェント推論へのスケーラブルな道を提供する。
論文参考訳（メタデータ） (2026-01-31T18:15:50Z)
ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。 ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文参考訳（メタデータ） (2025-12-01T09:44:31Z)
RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。 RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文参考訳（メタデータ） (2025-10-26T15:06:44Z)
ConSol: Sequential Probability Ratio Testing to Find Consistent LLM Reasoning Paths Efficiently [3.6393221632527686]
小言語モデル(LLM)は、回答を提供する前に中間推論ステップを生成することで複雑なタスクを解決する。広く使われている自己整合性法は、精度を向上させるために複数の推論経路を集約することにより、これらのコストをさらに高める。十分な整合性が達成できればサンプリングを動的に停止するために,逐次確率比検定(SPRT)を活用することを提案する。
論文参考訳（メタデータ） (2025-03-22T00:07:28Z)
SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。離散選択問題を連続的な部分集合最適化フレームワークに変換する。両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文参考訳（メタデータ） (2025-02-14T12:35:21Z)
UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-03T17:39:38Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Smoothed $f$-Divergence Distributionally Robust Optimization [5.50764401597583]
我々は、特別な種類の分布完全ロバスト最適化(DRO)の定式化が理論的優位性をもたらすと論じる。 DROは、Wasserstein または L'evy-Prokhorov (LP) 距離で滑らかなKullback Leibler (KL) の発散に基づく曖昧性集合を用いる。
論文参考訳（メタデータ） (2023-06-24T19:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。