論文の概要: Select-then-Solve: Paradigm Routing as Inference-Time Optimization for LLM Agents
- arxiv url: http://arxiv.org/abs/2604.06753v1
- Date: Wed, 08 Apr 2026 07:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.389608
- Title: Select-then-Solve: Paradigm Routing as Inference-Time Optimization for LLM Agents
- Title(参考訳): LLMエージェントの推論時間最適化としてのSelect-then-Solve:Paradigm Routing
- Authors: Heng Zhou, Zelin Tan, Zhemeng Zhang, Yutao Fan, Yibing Lin, Li Kang, Xiufeng Song, Rui Li, Songtao Huang, Ao Yu, Yuchen Fan, Yanxu Chen, Kaixin Xu, Xiaohong Liu, Yiran Qin, Philip Torr, Chen Zhang, Zhenfei Yin,
- Abstract要約: Direct、CoT、ReAct、Plan-Execute、Re Reflection、ReCodeの6つの推論時パラダイムを比較します。
推論構造は、いくつかのタスクで劇的に役立つが、他のタスクに悪影響を及ぼす。
提案手法は,各タスクに応答する前に,軽量な埋め込み型ルータが最適なパラダイムを選択することである。
- 参考スコア(独自算出の注目度): 40.71556008019808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM-based agent improves on a task, is the gain from the model itself or from the reasoning paradigm wrapped around it? We study this question by comparing six inference-time paradigms, namely Direct, CoT, ReAct, Plan-Execute, Reflection, and ReCode, across four frontier LLMs and ten benchmarks, yielding roughly 18,000 runs. We find that reasoning structure helps dramatically on some tasks but hurts on others: ReAct improves over Direct by 44pp on GAIA, while CoT degrades performance by 15pp on HumanEval. No single paradigm dominates, and oracle per-task selection beats the best fixed paradigm by 17.1pp on average. Motivated by this complementarity, we propose a select-then-solve approach: before answering each task, a lightweight embedding-based router selects the most suitable paradigm. Across four models, the router improves average accuracy from 47.6% to 53.1%, outperforming the best fixed paradigm at 50.3% by 2.8pp and recovering up to 37% of the oracle gap. In contrast, zero-shot self-routing only works for GPT-5 at 67.1% and fails for weaker models, all trailing the learned router. Our results argue that reasoning paradigm selection should be a per-task decision made by a learned router, not a fixed architectural choice.
- Abstract(参考訳): LLMベースのエージェントがタスクを改善するとき、モデル自体やそれの周りにラップされた推論パラダイムから得られる利益があるのだろうか?
我々は,4つのフロンティアLCMと10のベンチマークで,Direct,CoT,ReAct,Plan-Execute,Re Reflection,ReCodeの6つの推論時間パラダイムを比較し,約18,000ランを達成している。
ReActはGAIAでは44ppで、CoTはHumanEvalでは15ppで性能が低下します。
一つのパラダイムが支配的であり、タスク毎の選択のオラクルは平均17.1ppで最高の固定パラダイムを上回っている。
この相補性により、各タスクに応答する前に、軽量な埋め込み型ルータが最適なパラダイムを選択する。
4つのモデルにおいて、ルータの平均精度は47.6%から53.1%に向上し、最良の固定パラダイムを50.3%倍の2.8ppで上回り、オラクルギャップの37%まで回復する。
対照的に、ゼロショットのセルフルーチンはGPT-5で67.1%しか動作せず、より弱いモデルでは失敗し、すべて学習したルータに追随する。
我々の研究結果は、推論パラダイムの選択は学習ルータが行うタスクごとの判断であって、固定的なアーキテクチャ選択ではない、と論じている。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。
小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。
本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:58:16Z) - You Only Need Your Transformer 25% of the Time: Meaning-First Execution for Eliminating Unnecessary Inference [0.0]
本稿では,このフレームワークを実装したコントロールプレーンアーキテクチャであるMeaning-First Execution (MFEE)を紹介する。
MFEEは78.1%の実行削減を実現し、呼び出された実行に対する100%の正確なマッチ等価性を維持している。
論文 参考訳(メタデータ) (2025-12-29T08:03:52Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model [21.82904448561646]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
Best-of-N選択パラダイムは、複数の独立に生成された推論軌道から選択することで、スケーラブルなパフォーマンス改善をもたらす。
プロセスレベルのスコアリングのために,サンプルLLMの隠れ状態を利用する,効率的かつ効果的なBest-of-NフレームワークであるTrajSelectorを紹介した。
論文 参考訳(メタデータ) (2025-10-18T11:01:39Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。