論文の概要: StreamingThinker: Large Language Models Can Think While Reading
- arxiv url: http://arxiv.org/abs/2510.17238v1
- Date: Mon, 20 Oct 2025 07:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.022861
- Title: StreamingThinker: Large Language Models Can Think While Reading
- Title(参考訳): StreamingThinker: 読みながら考えることのできる大きな言語モデル
- Authors: Junlong Tong, Yingqi Fan, Anhao Zhao, Yunpu Ma, Xiaoyu Shen,
- Abstract要約: 大規模言語モデル(LLM)は思考の連鎖(CoT)推論において顕著な能力を示した。
読みながら考えることの人間の認知に触発され,まず LLM のためのテキストテキストbfstreaming 思考パラダイムを設計する。
このパラダイムをTextitStreamingThinkerでインスタンス化します。
- 参考スコア(独自算出の注目度): 14.54868327561777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in chain of thought (CoT) reasoning. However, the current LLM reasoning paradigm initiates thinking only after the entire input is available, which introduces unnecessary latency and weakens attention to earlier information in dynamic scenarios. Inspired by human cognition of thinking while reading, we first design a \textit{\textbf{streaming thinking}} paradigm for LLMs, where reasoning unfolds in the order of input and further adjusts its depth once reading is complete. We instantiate this paradigm with \textit{StreamingThinker}, a framework that enables LLMs to think while reading through the integration of streaming CoT generation, streaming-constraint training, and streaming parallel inference. Specifically, StreamingThinker employs streaming reasoning units with quality control for CoT generation, enforces order-preserving reasoning through streaming attention masks and position encoding, and leverages parallel KV caches that decouple input encoding from reasoning generation, thereby ensuring alignment and enabling true concurrency. We evaluate StreamingThinker on the Qwen3 model family across math reasoning, logical reasoning, and context-based QA reasoning tasks. Experimental results show that the StreamingThinker preserves performance comparable to batch thinking, while yielding an 80\% reduction in token waiting before the onset of reasoning and a more than 60\% reduction in time-level latency for producing the final answer, demonstrating the effectiveness of the streaming paradigm for LLM reasoning. Code will be released at \href{https://github.com/EIT-NLP/StreamingLLM/tree/main/StreamingThinker}{this repository.}
- Abstract(参考訳): 大規模言語モデル(LLM)は思考の連鎖(CoT)推論において顕著な能力を示した。
しかし、現在のLLM推論パラダイムは、入力全体が利用可能になった後にのみ思考を開始するため、不要な遅延が発生し、動的シナリオにおける以前の情報への注意が弱まる。
読みながら考えることの人間の認知に触発されて、まず LLM のための \textit{\textbf{streaming Think}} パラダイムを設計し、読み上げが完了すると、推論が入力順に展開し、その深さを調整します。
このパラダイムを,ストリーミングCoT生成,ストリーミング制約トレーニング,ストリーミング並列推論の統合を通じて,LLMの思考を可能にするフレームワークであるtextit{StreamingThinker}でインスタンス化する。
具体的には、StreamingThinkerは、CoT生成の品質制御を備えたストリーミング推論ユニットを採用し、ストリーミングアテンションマスクや位置エンコーディングによる順序保存推論を実行し、並列KVキャッシュを活用して、入力エンコーディングを推論生成から切り離し、アライメントを確保し、真の並行性を実現する。
本稿では,Qwen3モデルファミリ上のStreamingThinkerを,数理推論,論理推論,コンテキストベースのQA推論タスクで評価する。
実験結果から,StreamingThinkerはバッチ思考に匹敵する性能を保ちつつ,推理開始前にトークンを80%以上削減し,最終回答を生成するための時間レベルの遅延を60%以上低減し,LLM推論におけるストリーミングパラダイムの有効性を実証した。
コードは \href{https://github.com/EIT-NLP/StreamingLLM/tree/main/StreamingThinker}{this リポジトリでリリースされる。
※
関連論文リスト
- Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models [14.21980212001207]
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
論文 参考訳(メタデータ) (2026-03-03T11:24:55Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Latent Reasoning with Supervised Thinking States [60.09942890192309]
チェーン・オブ・思想(CoT)による推論により、LLM(Large Language Models)は複雑なタスクを解決できるが、かなりの推論コストを発生させる。
我々は、入力が処理されている間に推論エムを実行する方法であるThinking Statesを提案する。
我々は、思考状態がCoTよりも強い推論行動をもたらし、トレーニング中に見られるよりも長いシーケンスへの外挿に成功したことを示す。
論文 参考訳(メタデータ) (2026-02-09T07:12:41Z) - Rethinking Chain-of-Thought Reasoning for Videos [19.579424881079447]
思考の連鎖(CoT)推論は自然言語処理における複雑なタスクの解決に成功している。
最近のマルチモーダル大言語モデル(MLLM)は、このパラダイムをビデオ推論に拡張している。
経験的観察によって動機づけられた我々は、簡潔な推論と少ない視覚的トークンの組み合わせは、効果的なビデオ推論に十分である、という仮説を立てた。
論文 参考訳(メタデータ) (2025-12-10T13:05:55Z) - Diffuse Thinking: Exploring Diffusion Language Models as Efficient Thought Proposers for Reasoning [11.437063355666593]
そこで我々は,DLMを有効活用した効率的な協調推論フレームワークを提案し,その品質を評価するために,候補思考とLLMを生成する。
我々のフレームワークは複雑な推論タスクにおいて高いパフォーマンスを達成し、将来の研究に有望な方向性を提供する。
論文 参考訳(メタデータ) (2025-10-31T13:41:30Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding [29.586274567275012]
一般的に、後者の2つのミスマッチは頻繁な再エンコードを必要とし、再エンコード出力がほとんど不要であることを示す。
本稿では,ストリーミングモードとバッチモードの整合性を高めるため,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを提案する。
提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:28Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。