論文の概要: Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning
- arxiv url: http://arxiv.org/abs/2507.16784v1
- Date: Tue, 22 Jul 2025 17:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.224209
- Title: Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning
- Title(参考訳): コンテキスト制限を超えて: ロングホライゾン推論のための潜在意識スレッド
- Authors: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass,
- Abstract要約: 本稿では,大規模言語モデルのファミリーであるスレッド推論モデル(TIM)と,推論ランタイムであるTIMRUNを提案する。
TIMRUNにホストされたTIMは、単一の言語モデル推論内で、事実上無制限のワーキングメモリとマルチホップツールコールをサポートする。
我々は,GPUメモリ上で最大90%のKVキャッシュを動作させる場合でも,高い推論スループットを保っていることを示す。
- 参考スコア(独自算出の注目度): 11.810780820457927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.
- Abstract(参考訳): 本稿では,再帰的および分解的問題解決のために訓練されたLLMのファミリーであるThread Inference Model (TIM) と,文脈制限を超えた長期構造推論が可能な推論ランタイムTIMRUNを提案する。
TIMRUNにホストされたTIMは、単一の言語モデル推論内で、事実上無制限のワーキングメモリとマルチホップツールコールをサポートし、出力制限、位置埋め込み制約、GPUのボトルネックを克服する。
自然言語を線形列ではなく長さと深さで測定された木を推論するものとしてモデル化することで、性能が向上する。
推論木は、2025年のSchroeder et alで提案した概念に基づく思考、再帰的なサブタスク、結論を伴うタスクで構成されている。
生成中、我々は最も関連するコンテキストトークンのキー値状態のみを保持するワーキングメモリを維持し、ルールベースのサブタスク・プルーニング機構によって選択され、推論を通して位置埋め込みとGPUメモリページの再利用を可能にする。
実験の結果,GPUメモリ上で最大90%のKVキャッシュを動作させる場合であっても,本システムは高い推論スループットを保っていることがわかった。
また、数学的タスクの正確な推論を提供し、長期の推論とマルチホップツールの使用を必要とする情報検索の課題に対処する。
関連論文リスト
- PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Reasoning on Multiple Needles In A Haystack [9.765859280987053]
直接質問をフィルタリングすることで,メモリベースの回答問題に対処する。
この知見に基づいて,マルチラウンド拡張のためのリフレクション機構を導入する。
生成した反復的思考プロセスを使用してモデルをトレーニングし、パフォーマンスの劣化を軽減する。
論文 参考訳(メタデータ) (2025-04-05T11:58:08Z) - Can Memory-Augmented Language Models Generalize on Reasoning-in-a-Haystack Tasks? [31.192647141427233]
本稿では,メモリ拡張型LLMアーキテクチャであるMemReasonerを提案する。
MemReasonerはエンドツーエンドでトレーニングされ、オプションで事実管理をサポートする。
シングルホップタスクと2ホップタスクの両方において,MemReasonerの強い一般化を示す。
論文 参考訳(メタデータ) (2025-03-10T22:48:53Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。