Fugu-MT 論文翻訳(概要): TRIM: Hybrid Inference via Targeted Stepwise Routing in Multi-Step Reasoning Tasks

論文の概要: TRIM: Hybrid Inference via Targeted Stepwise Routing in Multi-Step Reasoning Tasks

arxiv url: http://arxiv.org/abs/2601.10245v1
Date: Thu, 15 Jan 2026 10:06:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:19.094019
Title: TRIM: Hybrid Inference via Targeted Stepwise Routing in Multi-Step Reasoning Tasks
Title（参考訳）: TRIM:マルチステップ推論タスクにおけるステップワイドルーティングによるハイブリッド推論
Authors: Vansh Kapoor, Aman Gupta, Hao Chen, Anurag Beniwal, Jing Huang, Aviral Kumar,
Abstract要約: 現在のメソッドはクエリ全体を1つのモデルに割り当て、すべての推論を1つのモデルに等しいものとして扱います。我々は,全ての多段階推論タスクを処理する新しいモデルを提案する。簡単なしきい値からより表現力のあるルーティングポリシまで,さまざまな戦略を開発しています。
参考スコア（独自算出の注目度）: 26.198066761026297
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-step reasoning tasks like mathematical problem solving are vulnerable to cascading failures, where a single incorrect step leads to complete solution breakdown. Current LLM routing methods assign entire queries to one model, treating all reasoning steps as equal. We propose TRIM (Targeted routing in multi-step reasoning tasks), which routes only critical steps$\unicode{x2013}$those likely to derail the solution$\unicode{x2013}$to larger models while letting smaller models handle routine continuations. Our key insight is that targeted step-level interventions can fundamentally transform inference efficiency by confining expensive calls to precisely those steps where stronger models prevent cascading errors. TRIM operates at the step-level: it uses process reward models to identify erroneous steps and makes routing decisions based on step-level uncertainty and budget constraints. We develop several routing strategies within TRIM, ranging from a simple threshold-based policy to more expressive policies that reason about long-horizon accuracy-cost trade-offs and uncertainty in step-level correctness estimates. On MATH-500, even the simplest thresholding strategy surpasses prior routing methods with 5x higher cost efficiency, while more advanced policies match the strong, expensive model's performance using 80% fewer expensive model tokens. On harder benchmarks such as AIME, TRIM achieves up to 6x higher cost efficiency. All methods generalize effectively across math reasoning tasks, demonstrating that step-level difficulty represents fundamental characteristics of reasoning.
Abstract（参考訳）: 数学的問題解決のような多段階の推論タスクは、ひとつの誤ったステップが完全な解の分解につながるカスケード障害に対して脆弱である。現在のLLMルーティングメソッドは、すべてのクエリをひとつのモデルに割り当て、すべての推論ステップを同等に扱う。我々は、TRIM(Targeted routing in multi-step reasoning task)を提案し、これは重要なステップ$\unicode{x2013}$thoseだけをルートし、より大規模なモデルに$\unicode{x2013}$thoseをデレールし、小さなモデルでルーチン継続を処理させる。私たちの重要な洞察は、ターゲットとなるステップレベルの介入は、コストのかかる呼び出しを、より強力なモデルがカスケードエラーを防ぐステップに精通させることで、推論効率を根本的に変えることができるということです。 TRIMはプロセス報酬モデルを使用して誤ったステップを特定し、ステップレベルの不確実性と予算制約に基づいたルーティング決定を行う。我々は,TRIM内におけるいくつかのルーティング戦略を,単純なしきい値に基づく政策から,長期の高精度なトレードオフとステップレベルの正当性推定の不確実性を推論するより表現力のある政策まで展開する。 MATH-500では、最も単純なしきい値設定戦略でさえ、従来のルーティング手法を5倍のコスト効率で上回り、より高度なポリシーは、より高額なモデルトークンを80%削減して、強力な高価なモデルの性能にマッチする。 AIMEのようなより厳しいベンチマークでは、TRIMは最大で6倍のコスト効率を達成する。すべての手法が数学の推論タスクをまたいで効果的に一般化され、ステップレベルの難易度が推論の基本的な特徴であることを示す。

関連論文リスト

Budget-Aware Agentic Routing via Boundary-Guided Training [24.0709108941881]
予算対応エージェントルーティング(Budget-Aware Agentic Routing)は、各ステップで安価なモデルと高価なモデルを選択して、コスト削減フロンティアを最適化する。境界誘導訓練(Boundary-Guided Training)は、希少な報酬の下で学習を定着させるために難しい分類法を構築する。実験結果から,提案手法は高効率フロンティアを改良し,強いルーティングベースラインを極めて低コストで整合することを示した。
論文参考訳（メタデータ） (2026-02-04T07:39:27Z)
CONCUR: A Framework for Continual Constrained and Unconstrained Routing [79.85419373937765]
AIタスクは複雑さが異なり、異なる計算戦略で対処するのが最善である。これまでのほとんどのメソッドは、すべての戦略で単一のモデルをトレーニングすることで、ルーティングフレームワークを構築していました。制約付きルーティングと制約なしルーティングの両方をサポートする連続的なルーティングフレームワークであるCONCURを提案する。
論文参考訳（メタデータ） (2025-12-10T07:30:13Z)
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文参考訳（メタデータ） (2025-12-04T17:50:53Z)
Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation [32.86351316550696]
我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
論文参考訳（メタデータ） (2025-10-13T17:02:41Z)
SATER: A Self-Aware and Token-Efficient Approach to Routing and Cascading [39.20076289493037]
本稿では,最短応答の選好最適化と信頼度を考慮した拒絶機構を通じて細管モデルをモデル化する二重モード互換手法SATERを紹介する。 SATERは、前世代のルーティングの性能とカスケードルーティングの効率の両方を改善しながら、冗長な出力と応答時間を著しく削減する。
論文参考訳（メタデータ） (2025-10-04T19:55:36Z)
Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文参考訳（メタデータ） (2025-06-06T09:18:56Z)
Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。 RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文参考訳（メタデータ） (2025-05-26T02:53:17Z)
PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文参考訳（メタデータ） (2025-05-25T17:58:50Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。 AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文参考訳（メタデータ） (2025-01-06T18:59:13Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。