論文の概要: Retrieval-of-Thought: Efficient Reasoning via Reusing Thoughts
- arxiv url: http://arxiv.org/abs/2509.21743v1
- Date: Fri, 26 Sep 2025 01:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.10612
- Title: Retrieval-of-Thought: Efficient Reasoning via Reusing Thoughts
- Title(参考訳): Retrieval-of-Thought:Reusing Thoughtsによる効率的な推論
- Authors: Ammar Ahmed, Azal Ahmad Khan, Ayaan Ahmad, Sheng Di, Zirui Liu, Ali Anwar,
- Abstract要約: 本稿では, 事前推論を構成可能な思考として再利用するRetrieval-of-Thought(RoT)を提案する。
RoTは、シーケンシャルかつセマンティックなエッジを持つ思考グラフにステップを整理し、高速な検索と柔軟な再結合を可能にする。
複数のモデルを用いた推論ベンチマークでRoTを評価し,精度,トークン使用率,レイテンシ,メモリオーバーヘッドを測定した。
- 参考スコア(独自算出の注目度): 6.845529733164892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models improve accuracy by producing long reasoning traces, but this inflates latency and cost, motivating inference-time efficiency. We propose Retrieval-of-Thought (RoT), which reuses prior reasoning as composable ``thought" steps to guide new problems. RoT organizes steps into a thought graph with sequential and semantic edges to enable fast retrieval and flexible recombination. At inference, RoT retrieves query-relevant nodes and applies reward-guided traversal to assemble a problem-specific template that guides generation. This dynamic template reuse reduces redundant exploration and, therefore, reduces output tokens while preserving accuracy. We evaluate RoT on reasoning benchmarks with multiple models, measuring accuracy, token usage, latency, and memory overhead. Findings show small prompt growth but substantial efficiency gains, with RoT reducing output tokens by up to 40%, inference latency by 82%, and cost by 59% while maintaining accuracy. RoT establishes a scalable paradigm for efficient LRM reasoning via dynamic template construction through retrieval.
- Abstract(参考訳): 大きな推論モデルは、長い推論トレースを生成することによって精度を向上させるが、これは遅延とコストを膨らませ、推論時間効率を動機付けている。
提案するRetrieval-of-Thought(RoT)は,事前推論を構成可能な ``Thought" ステップとして再利用して,新たな問題を導く。
RoTは、シーケンシャルかつセマンティックなエッジを持つ思考グラフにステップを整理し、高速な検索と柔軟な再結合を可能にする。
推論では、RoTはクエリ関連ノードを取得し、報酬誘導トラバーサルを適用して、生成をガイドする問題固有のテンプレートを組み立てる。
この動的テンプレートの再利用は冗長な探索を減らし、したがって精度を保ちながら出力トークンを減らす。
複数のモデルを用いた推論ベンチマークでRoTを評価し,精度,トークン使用率,レイテンシ,メモリオーバーヘッドを測定した。
RoTは出力トークンを最大40%削減し、推論遅延を82%削減し、精度を維持しながらコストを59%削減する。
RoTは、検索による動的テンプレート構築による効率的なLRM推論のためのスケーラブルなパラダイムを確立する。
関連論文リスト
- Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework [10.148124073650349]
Chain-of-Thought(CoT)推論はLarge Language Models(LLMs)を強化する
より長いアウトプットは、レイテンシ、メモリ使用量、KV-cache要求を増加させる。
精度を保ちながらCOTを圧縮する適応型フレームワークSEER(Self-Enhancing Efficient Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-17T15:33:44Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models [2.7645012830234]
大きな推論モデルは複雑な推論タスクでは優れているが、典型的には長いシーケンシャル連鎖を生成する。
SPRINTは、LRMが並列化の機会を動的に識別し活用できるようにするために設計された、新しいトレーニング後および推論時フレームワークである。
本研究では,SPRINTフレームワークで微調整されたモデルが,数学などの複雑な領域における推論モデルの性能と一致することを示す。
論文 参考訳(メタデータ) (2025-06-06T05:10:31Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。