論文の概要: Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.02872v1
- Date: Tue, 03 Mar 2026 11:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.764694
- Title: Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
- Title(参考訳): Think-as-See:大規模視覚言語モデルのためのストリーミングチェイン・オブ・サート推論
- Authors: Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen,
- Abstract要約: ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
- 参考スコア(独自算出の注目度): 14.21980212001207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) exhibit strong Chain-of-Thought (CoT) capabilities, yet most existing paradigms assume full-video availability before inference, a batch-style process misaligned with real-world video streams where information arrives sequentially. Motivated by the streaming nature of video data, we investigate two streaming reasoning paradigms for LVLMs. The first, an interleaved paradigm, alternates between receiving frames and producing partial reasoning but remains constrained by strictly ordered cache updates. To better match streaming inputs, we propose \textbf{Think-as-You-See (TaYS)}, a unified framework enabling true concurrent reasoning. TaYS integrates parallelized CoT generation, stream-constrained training, and stream-parallel inference. It further employs temporally aligned reasoning units, streaming attention masks and positional encodings, and a dual KV-cache that decouples visual encoding from textual reasoning. We evaluate all paradigms on the Qwen2.5-VL family across representative video CoT tasks, including event dynamics analysis, causal reasoning, and thematic understanding. Experiments show that TaYS consistently outperforms both batch and interleaved baselines, improving reasoning performance while substantially reducing time-to-first-token (TTFT) and overall reasoning delay. These results demonstrate the effectiveness of data-aligned streaming reasoning in enabling efficient and responsive video understanding for LVLMs. We release our code at \href{https://github.com/EIT-NLP/StreamingLLM/tree/main/TaYS}{this repository.}
- Abstract(参考訳): 大型ビジョン言語モデル(LVLM)は強力なChain-of-Thought(CoT)機能を示すが、既存のパラダイムの多くは推論の前にフルビデオの可用性を前提としている。
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
第1のインターリーブドパラダイムは、受信フレームと部分的推論の生成を交互に行うが、厳密に順序付けられたキャッシュ更新によって制約される。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークであるTaYSを提案する。
TaYSは並列化されたCoT生成、ストリーム制約付きトレーニング、ストリーム並列推論を統合している。
さらに、時間的に整列した推論ユニット、ストリーミングアテンションマスク、位置エンコーディング、およびテキスト推論から視覚的エンコーディングを分離する2つのKVキャッシュが採用されている。
我々は,Qwen2.5-VLファミリーのイベントダイナミクス解析,因果推論,テーマ理解など,代表的ビデオCoTタスクにおけるすべてのパラダイムを評価した。
実験の結果、TaYSはバッチとインターリーブの両方のベースラインを一貫して上回り、推論性能を向上し、TTFT(Time-to-first-token)と全体的な推論遅延を大幅に低減した。
これらの結果は,LVLMの効率的かつ応答性の高いビデオ理解を実現する上で,データ整合型ストリーミング推論の有効性を示す。
当社のコードは、 \href{https://github.com/EIT-NLP/StreamingLLM/tree/main/TaYS}{thisリポジトリでリリースしています。
※
関連論文リスト
- TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning [39.81570843186615]
VCoT(Visual Chain-of-Thought)は、視覚的知覚を中間的推論ステップに統合することにより、マルチモーダル推論を強化するための有望なパラダイムとして登場した。
TwiFFは、270万ドルのビデオクリップから派生した、最初の大規模、時間的に基底付けられたVCoTデータセットである。
TwiFFは既存のVCoT手法やテキスト・チェーン・オブ・ソート・ベースラインを動的推論タスクで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-11T09:20:04Z) - Rethinking Chain-of-Thought Reasoning for Videos [19.579424881079447]
思考の連鎖(CoT)推論は自然言語処理における複雑なタスクの解決に成功している。
最近のマルチモーダル大言語モデル(MLLM)は、このパラダイムをビデオ推論に拡張している。
経験的観察によって動機づけられた我々は、簡潔な推論と少ない視覚的トークンの組み合わせは、効果的なビデオ推論に十分である、という仮説を立てた。
論文 参考訳(メタデータ) (2025-12-10T13:05:55Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - StreamingThinker: Large Language Models Can Think While Reading [14.54868327561777]
大規模言語モデル(LLM)は思考の連鎖(CoT)推論において顕著な能力を示した。
読みながら考えることの人間の認知に触発され,まず LLM のためのテキストテキストbfstreaming 思考パラダイムを設計する。
このパラダイムをTextitStreamingThinkerでインスタンス化します。
論文 参考訳(メタデータ) (2025-10-20T07:27:37Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding [29.586274567275012]
一般的に、後者の2つのミスマッチは頻繁な再エンコードを必要とし、再エンコード出力がほとんど不要であることを示す。
本稿では,ストリーミングモードとバッチモードの整合性を高めるため,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを提案する。
提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:28Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.64831081829936]
Reinforcement fine-tuning (RFT) は人間レベルの推論能力を達成する上で非常に有望である。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークにおいて,ビデオRFTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。