論文の概要: RankGuide: Tensor-Rank-Guided Routing and Steering for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2604.16694v1
- Date: Fri, 17 Apr 2026 20:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.807664
- Title: RankGuide: Tensor-Rank-Guided Routing and Steering for Efficient Reasoning
- Title(参考訳): RankGuide: 効率的な推論のためのテンソルガイドルーティングとステアリング
- Authors: Jiayi Tian, Yupeng Su, Ryan Solgi, Souvik Kundu, Zheng Zhang,
- Abstract要約: 大きな推論モデル(LRM)は、かなりの推論遅延と計算オーバーヘッドを引き起こす。
テンソルランク誘導ステアリングによる協調の効率性と有効性を向上させるフレームワークであるRanGuideを提案する。
RankGuideは、従来の方法と比較して競合精度を維持しながら、LRMと比較してレイテンシを最大1.75タイム削減する。
- 参考スコア(独自算出の注目度): 10.68221932401407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) enhance problem-solving capabilities by generating explicit multi-step chains of thought (CoT) reasoning; however, they incur substantial inference latency and computational overhead. To mitigate this issue, recent works have explored model collaboration paradigms, where small reasoning models (SRMs) generate intermediate reasoning steps to achieve a better accuracy--latency trade-off. Despite recent progress, effectively and efficiently detecting and mitigating SRM failures in collaborative systems remains a key challenge. To address this issue, we analyze SRM inference in both the generated text and hidden-state spaces, and identify three types of failure modes: \textit{overconfidence}, \textit{uncertainty}, and \textit{heavy revalidation}. Building on these insights, we propose \textbf{RankGuide}, a framework that improves the efficiency and effectiveness of SRM--LRM collaboration through tensor-rank-guided routing and steering. Specifically, RankGuide leverages a routing signal that incorporates tensor-rank signals derived from consecutive hidden states to detect when SRMs are likely to fail and selectively invoke LRMs. In addition, we introduce a tensor-rank-filtered steering vector extraction method to modulate the reasoning trajectory of SRMs, thereby improving their generation quality. By improving both routing and steering through tensor-rank signals, RankGuide enables SRM--LRM collaborative systems to achieve more efficient reasoning with fewer steps and improved accuracy. Experiments on multiple reasoning benchmarks demonstrate the efficacy of RankGuide in reducing latency by up to $1.75\times$ compared to LRM, while maintaining competitive accuracy relative to prior methods.
- Abstract(参考訳): 大規模推論モデル(LRM)は、明らかに多段階の思考(CoT)推論を生成することで問題解決能力を向上するが、相当な推論遅延と計算オーバーヘッドを引き起こす。
この問題を軽減するために、最近の研究はモデルコラボレーションのパラダイムを探求し、小さな推論モデル(SRM)がより正確でレイテンシの高いトレードオフを達成するための中間的推論ステップを生成する。
近年の進歩にもかかわらず、協調システムのSRM障害を効果的かつ効率的に検出・緩和することは重要な課題である。
この問題を解決するために、生成されたテキスト空間と隠れ状態空間の両方でSRM推論を分析し、3種類の障害モードを識別する: \textit{overconfidence}, \textit{uncertainty}, \textit{heavy revalidation}。
これらの知見に基づいて、テンソルランク誘導ルーティングとステアリングによるSRM-LRM協調の効率と効率を向上させるフレームワークである「textbf{RankGuide}」を提案する。
具体的には、連続した隠蔽状態から引き起こされたテンソルランク信号を組み込んだルーティング信号を利用して、SRMが故障する可能性を検出し、選択的にLEMを起動する。
さらに,SRMの推理軌道を変調するテンソルランクフィルタによるステアリングベクトル抽出手法を導入し,その有効性を向上する。
RankGuideは、ルーティングとテンソルランク信号によるステアリングの両方を改善することで、SRM-LRM協調システムのより効率的な推論を、より少ないステップで実現し、精度を向上する。
複数の推論ベンチマークの実験では、従来の手法と比較して競合精度を維持しながら、レイテンシーを最大1.75\times$で削減するRanGuideの有効性が示されている。
関連論文リスト
- TrigReason: Trigger-Based Collaboration between Small and Large Reasoning Models [59.83398270447905]
大規模推論モデル(LRM)は複雑なタスクにおいて高い性能を達成するが、自己回帰的推論によって高い推論遅延に悩まされる。
最近の研究は、小型共振モデル(SRM)を用いてLEM推論を高速化する。
TrigReasonは、継続的ポーリングを選択的介入で置き換えるトリガーベースの協調推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-16T10:33:00Z) - Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty [33.04999074297977]
E-GRMはモデル内不確実性に基づく効率的な生成報酬モデリングフレームワークである。
E-GRMは推論コストを大幅に削減し,解答精度を継続的に向上することを示した。
論文 参考訳(メタデータ) (2026-04-11T07:35:08Z) - Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation [58.15178451387516]
大推理モデル (LRM) はチェーン・オブ・シント (CoT) による顕著な性能を達成した
近年の研究では、このような推論能力の強化は、安全性の大幅な低下を招いていることが示されている。
本稿では,COT生成開始前の安全意思決定を促進する新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2026-03-18T05:21:12Z) - Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models [39.290072292743226]
モジュール型合成パイプラインを通じて,B-CoTとD-CoTに生理性を再構成するフレームワークであるMix-GRMを紹介する。
実験によると、Mix-GRMは5つのベンチマークで新しい最先端のベンチマークを確立し、主要なオープンソースRMを平均8.2%上回っている。
論文 参考訳(メタデータ) (2026-03-02T07:54:29Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [46.75272311751018]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。