論文の概要: ViTCoT: Video-Text Interleaved Chain-of-Thought for Boosting Video Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.09876v1
- Date: Mon, 14 Jul 2025 03:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.182524
- Title: ViTCoT: Video-Text Interleaved Chain-of-Thought for Boosting Video Understanding in Large Language Models
- Title(参考訳): ViTCoT:大規模言語モデルにおけるビデオ理解を促進するためのビデオテキストインターリーブチェーン
- Authors: Yongheng Zhang, Xu Liu, Ruihan Tao, Qiguang Chen, Hao Fei, Wanxiang Che, Libo Qin,
- Abstract要約: ビデオ理解は、高いレベルの認知的推論で低レベルの視覚信号をブリッジする上で重要な役割を担っている。
ビデオテキストインターリーブドCoT(ViTCoT)の新たな推論パラダイムについて紹介する。
従来のテキストのみのCoTパラダイムと比較して,ViTCoTは性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 50.42183477287337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video understanding plays a vital role in bridging low-level visual signals with high-level cognitive reasoning, and is fundamental to applications such as autonomous driving, embodied AI, and the broader pursuit of AGI. The rapid development of large language models (LLMs), particularly those utilizing Chain-of-Thought (CoT) technology, has significantly advanced video reasoning capabilities. However, current approaches primarily depend on textual information for reasoning, overlooking the visual modality in the actual video reasoning process. In contrast, humans naturally re-examine visual content while reasoning. Motivated by this, we introduce a novel video reasoning paradigm: Video-Text Interleaved CoT (ViTCoT), which facilitates more intuitive and cognitively aligned reasoning. To the end, first, we construct the Video-Text Interleaved Benchmark (ViTIB), which is created using MLLMs for key-video selection and manually verified. Furthermore, we extensively explore the potential of the ViTCoT paradigm in the video understanding field. Extensive experiments demonstrate that ViTCoT significantly enhances performance compared to the traditional text-only CoT paradigm and effectively activates more neuron values in MLLMs.
- Abstract(参考訳): ビデオ理解は、高いレベルの認知的推論で低レベルの視覚信号をブリッジする上で重要な役割を果たす。
大規模言語モデル(LLM)の急速な開発、特にChain-of-Thought(CoT)技術を利用したものは、ビデオ推論能力が大幅に進歩している。
しかし、現在のアプローチは主に、実際のビデオ推論プロセスにおける視覚的モダリティを見越して、推論のためのテキスト情報に依存している。
対照的に、人間は推論しながら視覚的内容を再検査する。
そこで我々は,より直感的かつ認知的に整合した推論を容易にするビデオテキストインターリーブドCoT(ViTCoT)という,新しいビデオ推論パラダイムを紹介した。
まず,キー-ビデオ選択のためのMLLMを用いて作成し,手作業による検証を行うVideo-Text Interleaved Benchmark(ViTIB)を構築した。
さらに,ビデオ理解分野における ViTCoT パラダイムの可能性についても検討した。
大規模な実験により、ViTCoTは従来のテキストのみのCoTパラダイムと比較して性能を著しく向上し、MLLMのニューロン値をより効果的に活性化することが示された。
関連論文リスト
- SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - ViSpeak: Visual Instruction Feedback in Streaming Videos [50.99067964073338]
本稿では,視覚的インストラクションフィードバック(Visual Instruction Feedback)という新しいタスクを提案する。
我々は,様々なストリーミングビデオ理解ベンチマークにおいて,GPT-4oレベルの性能を持つSOTAストリーミングビデオ理解LMMであるViSpeakモデルを提案する。
論文 参考訳(メタデータ) (2025-03-17T03:05:31Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models [39.61402609070949]
Video Affective Reasoning (またはVideo Affective Reasoning)は、ビデオが人間にどのように感じられるかを予測するためのフレームワークである。
多言語モデル(LMLM)を用いたビデオ影響推論(またはビデオ影響推論)のためのStimuli-MLを提案する。
Stimuli-MLは、映像に対する視聴者の感情反応を理解し、一貫性と洞察に富んだ説明を提供する上で、既存のMLLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-31T00:00:50Z) - FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。