論文の概要: RouteGoT: Node-Adaptive Routing for Cost-Efficient Graph of Thoughts Reasoning
- arxiv url: http://arxiv.org/abs/2603.05818v1
- Date: Fri, 06 Mar 2026 02:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.886774
- Title: RouteGoT: Node-Adaptive Routing for Cost-Efficient Graph of Thoughts Reasoning
- Title(参考訳): RouteGoT: 思考推論の費用効率の良いグラフのためのノード適応ルーティング
- Authors: Yuhang Liu, Ruijie Wang, Yunlong Chu, Bing Hao, Yumeng Lin, Shengzhong Liu, Minglai Shao,
- Abstract要約: Tree of Thoughts (ToT)、Graph of Thoughts (GoT)、Adaptive Graph of Thoughts (AGoT)などの手法は、いくつかのベンチマークで精度を高めることができる。
我々は,グラフ構造化推論のための予算制御可能なノード適応ルーティングフレームワークであるRouteGoTを提案する。
- 参考スコア(独自算出の注目度): 12.010368435895627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel at multi-step reasoning, yet increasing the structural complexity of inference does not consistently improve system-level returns. Methods such as Tree of Thoughts (ToT), Graph of Thoughts (GoT), and Adaptive Graph of Thoughts (AGoT) can boost accuracy on some benchmarks, but often introduce substantial overhead in token consumption and latency, and their gains can be unstable across task distributions-sometimes underperforming simpler Chain-of-Thought (CoT) or direct input-output prompting (IO). We attribute this inefficiency to stage-wise and node-wise heterogeneity inside GoT-style reasoning pipelines: high-quality planning and final synthesis are globally coupled and typically benefit from strong models, whereas many intermediate subtasks are localized and can be solved accurately by lighter models with far fewer tokens. Motivated by these observations, we propose RouteGoT, a budget-controllable, node-adaptive routing framework for graph-structured reasoning. RouteGoT performs in-graph routing by prioritizing strong models for planning and synthesis, while dynamically allocating lightweight models and cost-effective strategies to leaf subtasks based on predicted difficulty. It further integrates explicit budget constraints into a global inference scheduler to control graph expansion under a user-specified token budget, enabling predictable performance-cost trade-offs. Experiments across reasoning, retrieval, and multi-hop QA benchmarks show that RouteGoT matching or improving accuracy while substantially reducing token usage; specifically, it achieves an average 8.1 percentage points accuracy improvement and 79.1\% output token reduction compared to AGoT. Furthermore, RouteGoT outperforms existing routing baselines by maintaining a superior cost-accuracy trade-off, demonstrating improved robustness under varying budget targets and tasks.
- Abstract(参考訳): 大規模言語モデル (LLM) は多段階推論において優れるが、推論の構造的複雑さはシステムレベルのリターンを常に改善しない。
Tree of Thoughts (ToT)、Graph of Thoughts (GoT)、Adaptive Graph of Thoughts (AGoT)といった手法は、いくつかのベンチマークで正確性を高めることができるが、トークンの消費と遅延のかなりのオーバーヘッドを伴い、その利得はタスク分散全体にわたって不安定になりうる。
この非効率性は、GoTスタイルの推論パイプライン内の段階的およびノード的不均一性に帰着する: 高品質な計画と最終合成はグローバルに結合され、強いモデルから恩恵を受けるが、多くの中間サブタスクはローカライズされ、より少ないトークンを持つ軽量モデルによって正確に解ける。
これらの観測により、我々は、グラフ構造化推論のための予算制御可能なノード適応ルーティングフレームワークであるRouteGoTを提案する。
RouteGoTは、計画と合成のための強力なモデルを優先順位付けし、予測された難易度に基づいて、軽量モデルとコスト効率のよいサブタスクを動的に割り当てる。
さらに、明示的な予算制約をグローバルな推論スケジューラに統合し、ユーザが指定したトークン予算の下でグラフ拡張を制御することで、予測可能なパフォーマンスコストのトレードオフを可能にする。
推論、検索、マルチホップQAベンチマークによる実験では、RouteGoTのマッチングや精度の向上はトークン使用率を大幅に低下させ、具体的には平均8.1ポイントの精度向上とAGoTと比較して79.1\%の出力トークン削減を実現している。
さらに、RouteGoTは、より優れたコスト精度のトレードオフを維持し、様々な予算目標やタスク下での堅牢性の向上を示すことで、既存のルーティングベースラインよりも優れています。
関連論文リスト
- HELP: HyperNode Expansion and Logical Path-Guided Evidence Localization for Accurate and Efficient GraphRAG [53.30561659838455]
大きな言語モデル(LLM)は、しばしば固有の知識境界と幻覚に苦しむ。
Retrieval-Augmented Generation (RAG) は、マルチホップ推論に不可欠な構造的相互依存性をしばしば見落としている。
ヘルプは、複数の単純でマルチホップなQAベンチマークで競合性能を達成し、グラフベースのRAGベースラインよりも28.8$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-24T14:05:29Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - Scaling Graph Chain-of-Thought Reasoning: A Multi-Agent Framework with Efficient LLM Serving [38.059017394879284]
Graph Chain-of-Thought (Graph-CoT)は、グラフ構造化知識に対してステップバイステップの推論を行う大きな言語モデル(LLM)を可能にする。
既存のパイプラインは、低い正確性、過剰なトークン使用、高いレイテンシ、低いスループットに悩まされている。
GLMはマルチエージェントグラフ-CoTシステムであり、最適化されたLLMサービスアーキテクチャで設計されている。
論文 参考訳(メタデータ) (2025-11-03T14:42:53Z) - EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling [17.020890684331203]
本稿では,トークンワイドエントロピー分布を用いたモデル不確実性を利用した学習自由生成手法であるEAGerを提案する。
AIME 2025のような複雑な推論ベンチマーク上の複数のオープンソースモデルにおいて、EAGerはターゲットラベルにアクセスせずに予算を再配置できる。
ターゲットラベルがアクセス可能になった場合、EAGerは最大65%のトークンを生成し、Full Parallel Samplingと比較して、Pass@kを最大37%改善する。
論文 参考訳(メタデータ) (2025-10-13T09:04:28Z) - Lighter-X: An Efficient and Plug-and-play Strategy for Graph-based Recommendation through Decoupled Propagation [49.865020394064096]
我々は,既存のGNNベースのレコメンデータアーキテクチャとシームレスに統合可能な,効率的かつモジュール化されたフレームワークである textbfLighter-X を提案する。
提案手法は,基本モデルの理論的保証と経験的性能を保ちながら,パラメータサイズと計算複雑性を大幅に低減する。
実験の結果、Lighter-Xはパラメータが大幅に少ないベースラインモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-11T08:33:08Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Flexible Graph Similarity Computation With A Proactive Optimization Strategy [22.212014309562427]
Graph Edit Distance (GED)は、グラフ類似性の原則的かつ柔軟な尺度を提供する。
GEDは、あるグラフを別のグラフに変換するのに必要な最小コストを、カスタマイズ可能な編集操作コストで定量化する。
既存の方法は、様々な運用コストに対応するのに苦労する。
フレキシブルGED近似のための新しい学習ベースアプローチであるGENを提案する。
論文 参考訳(メタデータ) (2025-04-09T02:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。