Fugu-MT 論文翻訳(概要): VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

論文の概要: VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

arxiv url: http://arxiv.org/abs/2405.13382v2
Date: Mon, 1 Jul 2024 06:14:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:00:18.547639
Title: VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding
Title（参考訳）: VTG-LLM:タイムスタンプ知識をビデオLLMに統合したビデオ時間グラウンドの強化
Authors: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Xi Chen, Bo Zhao,
Abstract要約: ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当てている。ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げてきたが、ビデオ内のタイムスタンプを正確に特定する上で、しばしば課題に直面している。本稿では,VTGタスクのための特殊なビデオLLMモデルであるVTG-LLMを提案し,タイムスタンプの知識を視覚トークンに効果的に統合する。
参考スコア（独自算出の注目度）: 7.907951246007355
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Temporal Grounding (VTG) focuses on accurately identifying event timestamps within a particular video based on a linguistic query, playing a vital role in downstream tasks such as video browsing and editing. While Video Large Language Models (video LLMs) have made significant progress in understanding video content, they often face challenges in accurately pinpointing timestamps within videos, which limits their performance on VTG tasks. Therefore, to improve video LLMs' ability to effectively locate timestamps, we argue that two critical aspects need to be enhanced. First, it is essential to have high-quality instructional tuning datasets that encompass mainstream VTG tasks. Second, directly incorporating timestamp knowledge into video LLMs is crucial, as it enables models to efficiently comprehend timestamp information. To address these needs, we first introduce VTG-IT-120K, a high-quality and comprehensive instruction tuning dataset that covers VTG tasks such as moment retrieval, dense video captioning, video summarization, and video highlight detection. Furthermore, we propose a specially designed video LLM model for VTG tasks, VTG-LLM, which (1) effectively integrates timestamp knowledge into visual tokens; (2) incorporates absolute-time tokens that specifically handle timestamp knowledge, thereby avoiding concept shifts; and (3) introduces a lightweight, high-performance slot-based token compression method to facilitate the sampling of more video frames. Comprehensive experiments showcase the superior performance of VTG-LLM in comparison to other video LLM methods across various VTG tasks. Our code and datasets are available at \url{https://github.com/gyxxyg/VTG-LLM}.
Abstract（参考訳）: ビデオ時間グラウンド(VTG)は、言語クエリに基づいて特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当て、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げているが、ビデオ内のタイムスタンプを正確に特定することは困難であり、VTGタスクのパフォーマンスを制限している。したがって,ビデオLLMのタイムスタンプを効果的に見つける能力を向上させるためには,2つの重要な側面を強化する必要がある。第一に、主流のVTGタスクを含む高品質な命令チューニングデータセットを持つことが不可欠である。第2に、タイムスタンプの知識を直接ビデオLLMに組み込むことが重要である。 VTG-IT-120Kは、モーメント検索、高密度ビデオキャプション、ビデオ要約、ビデオハイライト検出などのVTGタスクをカバーする、高品質で総合的な命令チューニングデータセットである。さらに、VTGタスクのための特別設計ビデオLLMモデルVTG-LLMを提案し、(1)タイムスタンプ知識を視覚トークンに効果的に統合し、(2)タイムスタンプ知識を専門に扱う絶対時間トークンを導入し、概念シフトを回避し、(3)より多くのビデオフレームのサンプリングを容易にする軽量かつ高性能なスロットベースのトークン圧縮方法を提案する。総合実験では、様々なVTGタスクにおける他のビデオLLM手法と比較して、VTG-LLMの優れた性能を示す。コードとデータセットは \url{https://github.com/gyxxyg/VTG-LLM} で公開されています。

関連論文リスト

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文参考訳（メタデータ） (2025-12-16T18:59:58Z)
A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文参考訳（メタデータ） (2025-08-07T08:52:11Z)
TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding [83.96715649130435]
VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
論文参考訳（メタデータ） (2025-08-03T10:03:58Z)
Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding [48.745013691038295]
VideoExpertは、複数の時間に敏感なビデオタスクに適した汎用MLLMである。時間の専門家は、時系列をモデル化し、時間的接地を行う責任を負う。空間専門家は、コンテンツの詳細分析と以下の指示に焦点を当てている。コンテンツ生成から時間的グラウンドをオフロードすることで、VideoExpertはタイムスタンプ予測におけるテキストパターンのバイアスを防ぐ。
論文参考訳（メタデータ） (2025-04-10T07:33:39Z)
Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。 72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-11-20T07:44:34Z)
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文参考訳（メタデータ） (2024-11-07T17:59:27Z)
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning [42.928144657587325]
本稿では,従来のショートフォームビデオMLLMを長大なビデオ理解に適用するための新デザインであるTimeSuiteを提案する。 TimeSuiteは、ショートフォームMLLMの長いビデオ理解能力を向上するための、成功したソリューションを提供する。さらに,9つのタスクと349kの高品質な接地アノテーションからなる総合的な接地中心の命令データセットであるTimeProを紹介する。
論文参考訳（メタデータ） (2024-10-25T17:19:55Z)
Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文参考訳（メタデータ） (2024-10-08T06:21:29Z)
TRACE: Temporal Grounding Video LLM via Causal Event Modeling [6.596327795743185]
ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。本稿では,映像をイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
論文参考訳（メタデータ） (2024-10-08T02:46:30Z)
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文参考訳（メタデータ） (2024-10-04T10:04:37Z)
ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文参考訳（メタデータ） (2024-10-01T08:27:56Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。ビデオLLMはビデオ全体の粗い記述しか提供できない。微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文参考訳（メタデータ） (2023-11-30T10:49:56Z)
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文参考訳（メタデータ） (2023-09-26T17:36:26Z)
UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文参考訳（メタデータ） (2023-07-31T14:34:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。