論文の概要: VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning
- arxiv url: http://arxiv.org/abs/2510.14672v1
- Date: Thu, 16 Oct 2025 13:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.874949
- Title: VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning
- Title(参考訳): VTimeCoT: ビデオの時間的接地と推論のための描画による思考
- Authors: Jinglei Zhang, Yuanfan Guo, Rolandos Alexandros Potamias, Jiankang Deng, Hang Xu, Chao Ma,
- Abstract要約: ビデオの時間的グラウンドと推論のためのトレーニング不要のフレームワークであるVTimeCoTを紹介する。
提案フレームワークは,プログレッシブバーの新しいビジュアルツールとして,プラグアンドプレイプログレッシブバー統合ツールと高効率ハイライトツールの2つを組み込んでいる。
提案手法は,ビデオ時間的グラウンドリングと推論に基づく質問応答のタスクにおいて,Qwen2VL-7BとGPT4oベースラインの両方で大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 60.42623437635971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, video question answering based on multimodal large language models (MLLM) has garnered considerable attention, due to the benefits from the substantial advancements in LLMs. However, these models have a notable deficiency in the domains of video temporal grounding and reasoning, posing challenges to the development of effective real-world video understanding systems. Inspired by how humans use video players to interact with the progress bar for video comprehension, we introduce VTimeCoT, a simple yet effective training-free framework, designed for high-performance video grounding and reasoning. The proposed framework incorporates two novel visual tools of the progress bar: a plug-and-play progress bar integration tool and a high-efficiency highlighting tool. In addition, to address the limitations of conventional text-based chain-of-thought (CoT) approaches, we introduce a visuotemporal CoT process that integrates cross-modality reasoning across both video and text. Our approach demonstrates significant performance improvements on both Qwen2VL-7B and GPT4o baselines in tasks of video temporal grounding and reasoning-based question answering. Finally, we showcase that the proposed framework achieves a compositional and interpretable reasoning process. Project page: https://vtimecot.github.io
- Abstract(参考訳): 近年,MLLM(Multimodal large language model)に基づくビデオ質問応答が注目されている。
しかし、これらのモデルは、ビデオの時間的接地と推論の領域において顕著な欠如があり、効果的な実世界の映像理解システムの開発に課題を提起している。
ビデオ理解のためのプログレッシブバーとの対話に人間がビデオプレイヤーを使う方法に触発されて,我々は,高性能なビデオグラウンドと推論のために設計された,シンプルで効果的なトレーニング不要のフレームワークであるVTimeCoTを紹介した。
提案フレームワークは,プログレッシブバーの新しいビジュアルツールとして,プラグアンドプレイプログレッシブバー統合ツールと高効率ハイライトツールの2つを組み込んでいる。
さらに,従来のテキストベースのチェーン・オブ・シークレット(CoT)アプローチの限界に対処するため,ビデオとテキストの双方向推論を統合した時空間CoTプロセスを導入する。
提案手法は,ビデオ時間的グラウンドリングと推論に基づく質問応答のタスクにおいて,Qwen2VL-7BとGPT4oベースラインの両方で大幅な性能向上を示す。
最後に,提案手法が構成的かつ解釈可能な推論プロセスを実現することを示す。
プロジェクトページ: https://vtimecot.github.io
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.40747899831793]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。