論文の概要: VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2405.13382v1
- Date: Wed, 22 May 2024 06:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:04:57.098592
- Title: VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding
- Title(参考訳): VTG-LLM:タイムスタンプ知識をビデオLLMに統合したビデオ時間グラウンドの強化
- Authors: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Xi Chen, Bo Zhao,
- Abstract要約: ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当てている。
ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げてきたが、ビデオ内のタイムスタンプを正確に特定する上で、しばしば課題に直面している。
本稿では,VTGタスクのための特殊なビデオLLMモデルであるVTG-LLMを提案し,タイムスタンプの知識を視覚トークンに効果的に統合する。
- 参考スコア(独自算出の注目度): 7.907951246007355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Temporal Grounding (VTG) focuses on accurately identifying event timestamps within a particular video based on a linguistic query, playing a vital role in downstream tasks such as video browsing and editing. While Video Large Language Models (video LLMs) have made significant progress in understanding video content, they often face challenges in accurately pinpointing timestamps within videos, which limits their performance on VTG tasks. Therefore, to improve video LLMs' ability to effectively locate timestamps, we argue that two critical aspects need to be enhanced. First, it is essential to have high-quality instructional tuning datasets that encompass mainstream VTG tasks. Second, directly incorporating timestamp knowledge into video LLMs is crucial, as it enables models to efficiently comprehend timestamp information. To address these needs, we first introduce VTG-IT-120K, a high-quality and comprehensive instruction tuning dataset that covers VTG tasks such as moment retrieval, dense video captioning, video summarization, and video highlight detection. Furthermore, we propose a specially designed video LLM model for VTG tasks, VTG-LLM, which (1) effectively integrates timestamp knowledge into visual tokens; (2) incorporates absolute-time tokens that specifically handle timestamp knowledge, thereby avoiding concept shifts; and (3) introduces a lightweight, high-performance slot-based token compression method to facilitate the sampling of more video frames. Comprehensive experiments showcase the superior performance of VTG-LLM in comparison to other video LLM methods across various VTG tasks. Our code and datasets are available at \url{https://github.com/gyxxyg/VTG-LLM}.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、言語クエリに基づいて特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当て、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げているが、ビデオ内のタイムスタンプを正確に特定することは困難であり、VTGタスクのパフォーマンスを制限している。
したがって,ビデオLLMのタイムスタンプを効果的に見つける能力を向上させるためには,2つの重要な側面を強化する必要がある。
第一に、主流のVTGタスクを含む高品質な命令チューニングデータセットを持つことが不可欠である。
第2に、タイムスタンプの知識を直接ビデオLLMに組み込むことが重要である。
VTG-IT-120Kは、モーメント検索、高密度ビデオキャプション、ビデオ要約、ビデオハイライト検出などのVTGタスクをカバーする、高品質で総合的な命令チューニングデータセットである。
さらに、VTGタスクのための特別設計ビデオLLMモデルVTG-LLMを提案し、(1)タイムスタンプ知識を視覚トークンに効果的に統合し、(2)タイムスタンプ知識を専門に扱う絶対時間トークンを導入し、概念シフトを回避し、(3)より多くのビデオフレームのサンプリングを容易にする軽量かつ高性能なスロットベースのトークン圧縮方法を提案する。
総合実験では、様々なVTGタスクにおける他のビデオLLM手法と比較して、VTG-LLMの優れた性能を示す。
コードとデータセットは \url{https://github.com/gyxxyg/VTG-LLM} で公開されています。
関連論文リスト
- Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。
72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-20T07:44:34Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。
TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。
さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文 参考訳(メタデータ) (2024-10-25T17:19:55Z) - Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。
既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。
時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:21:29Z) - TRACE: Temporal Grounding Video LLM via Causal Event Modeling [6.596327795743185]
ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。
本稿では,映像をイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。
本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
論文 参考訳(メタデータ) (2024-10-08T02:46:30Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。