論文の概要: VTI-CoT: Visual-Textual Interleaved Chain of Thought for Video Reasoning
- arxiv url: http://arxiv.org/abs/2606.05736v1
- Date: Thu, 04 Jun 2026 05:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.583272
- Title: VTI-CoT: Visual-Textual Interleaved Chain of Thought for Video Reasoning
- Title(参考訳): VTI-CoT:ビデオ推論のためのビジュアルテキストインターリーブ思考の連鎖
- Authors: Shufan Zhang, Ziyue Lin, Bairun Wang, Lei Jin, Xuanding Ding, Xinzhu Ma, Kunlin Yang,
- Abstract要約: ビデオ推論は、複雑な時間的出来事とビデオ内の因果関係を理解することを目的としている。
既存のChain-of-Thought(CoT)ビデオ推論手法は、論理的推論のためのテキストのみの情報に依存している。
テキスト推論のステップを対応する視覚フレームと統合するためのVisual-Textual Interleaved CoTフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.735514435202662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video reasoning aims to understand complex temporal events and causal relationships within videos. Recently, Chain-of-Thought (CoT) has been introduced to this field to enhance reasoning accuracy. However, existing CoT-based video reasoning methods primarily rely on text-only information for logical deduction, overlooking critical visual information during the inference process. Inspired by the human cognitive mechanism of reviewing visual segments during inference, we propose VTI-CoT, a Visual-Textual Interleaved CoT framework. VTI-CoT integrates textual reasoning steps with corresponding visual frames. Given the scarcity of visual-textual interleaved CoT in existing datasets, we develop an automated annotation pipeline to construct high-quality multimodal CoT data. Further, reasoning over long-form videos entails increasingly long CoT token sequences, which severely hinders training convergence and efficiency. To address this, we employ Optical Character Recognition (OCR)-based compression techniques to compress CoT supervision signals into a single canvas. Experimental results demonstrate that VTI-CoT achieves state-of-the-art performance among models of the same parameter scale while significantly improving training efficiency.
- Abstract(参考訳): ビデオ推論は、複雑な時間的出来事とビデオ内の因果関係を理解することを目的としている。
近年、推論精度を高めるために、この分野にChain-of-Thought (CoT)が導入されている。
しかし、既存のCoTベースのビデオ推論手法は、推論過程において重要な視覚情報を見渡すために、主にテキストのみの情報を論理的推論に頼っている。
推論中に視覚セグメントをレビューする人間の認知メカニズムに着想を得て,視覚テキストインターリーブCoTフレームワークであるVTI-CoTを提案する。
VTI-CoTはテキスト推論ステップと対応するビジュアルフレームを統合する。
既存のデータセットにおける視覚テキストインターリーブCoTの不足を踏まえ,高品質なマルチモーダルCoTデータを構築するための自動アノテーションパイプラインを開発する。
さらに、長いビデオに対する推論は、ますます長いCoTトークンシーケンスを伴い、トレーニングの収束と効率を著しく妨げます。
そこで我々は,光文字認識(OCR)に基づく圧縮技術を用いて,CoT監視信号を単一のキャンバスに圧縮する。
実験結果から,VTI-CoTは同じパラメータスケールのモデル間での最先端性能を実現し,トレーニング効率を著しく向上することが示された。
関連論文リスト
- STORM: Internalized Modeling for Spatial-Temporal Reasoning in Video-Language Models [81.32710031596591]
ビデオ推論タスクには、動きの追跡、時間順、フレーム全体の視覚状態の進化が必要である。
視覚言語モデル(LVLM)上に構築された既存の手法はしばしば、チェーン・オブ・ソート(CoT)を通じて推論を外部化することでこの問題に対処する。
STORMSは,LVLMに明示的なテキストCoTではなく,有界な連続的な潜在軌道を推論する2段階のフレームワークである。
論文 参考訳(メタデータ) (2026-05-25T16:33:00Z) - Act2See: Emergent Active Visual Perception for Video Reasoning [70.52373240573856]
VLM(Vision-Language Models)は通常、ビデオの推論に静的な初期フレームに依存している。
本稿では,アクト・ツー・シー(Act2See)という,アクティブな視覚知覚を実現する新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-05-03T00:52:51Z) - Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models [14.21980212001207]
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
論文 参考訳(メタデータ) (2026-03-03T11:24:55Z) - Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization [55.6995787502694]
本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。
代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。
実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
論文 参考訳(メタデータ) (2025-11-27T16:19:34Z) - Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文 参考訳(メタデータ) (2025-09-28T10:19:59Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。