論文の概要: TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability
- arxiv url: http://arxiv.org/abs/2411.18211v1
- Date: Wed, 27 Nov 2024 10:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:12.304643
- Title: TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability
- Title(参考訳): TimeMarker: 長時間短いビデオ理解のためのビデオLLM
- Authors: Shimin Chen, Xiaohan Lan, Yitian Yuan, Zequn Jie, Lin Ma,
- Abstract要約: ビデオコンテンツに基づく高品質な対話のための多目的ビデオLLMであるTimeMarkerを導入し、時間的ローカライゼーションを強調した。
TimeMarkerはTemporal Separator Tokensを統合して、時間的認識を高め、ビデオ内の特定の瞬間を正確にマークする。
動的フレームサンプリングと適応トークンマージにAnyLengthメカニズムを使用し、ショートビデオとロングビデオの両方を効果的に扱うことができる。
- 参考スコア(独自算出の注目度): 26.376975842846235
- License:
- Abstract: Rapid development of large language models (LLMs) has significantly advanced multimodal large language models (LMMs), particularly in vision-language tasks. However, existing video-language models often overlook precise temporal localization and struggle with videos of varying lengths. We introduce TimeMarker, a versatile Video-LLM designed for high-quality dialogue based on video content, emphasizing temporal localization. TimeMarker integrates Temporal Separator Tokens to enhance temporal awareness, accurately marking specific moments within videos. It employs the AnyLength mechanism for dynamic frame sampling and adaptive token merging, enabling effective handling of both short and long videos. Additionally, TimeMarker utilizes diverse datasets, including further transformed temporal-related video QA datasets, to bolster its temporal understanding capabilities. Image and interleaved data are also employed to further enhance the model's semantic perception ability. Evaluations demonstrate that TimeMarker achieves state-of-the-art performance across multiple benchmarks, excelling in both short and long video categories. Our project page is at \url{https://github.com/TimeMarker-LLM/TimeMarker/}.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発は、特に視覚言語タスクにおいて、非常に進んだ多モーダルな言語モデル(LMM)を持っている。
しかし、既存のビデオ言語モデルは、正確な時間的ローカライゼーションを見落とし、様々な長さのビデオと戦っていることが多い。
ビデオコンテンツに基づく高品質な対話のための多目的ビデオLLMであるTimeMarkerを紹介し,時間的ローカライゼーションを強調した。
TimeMarkerはTemporal Separator Tokensを統合して、時間的認識を高め、ビデオ内の特定の瞬間を正確にマークする。
動的フレームサンプリングと適応トークンマージにAnyLengthメカニズムを使用し、ショートビデオとロングビデオの両方を効果的に扱うことができる。
さらにTimeMarkerは、時間的関連ビデオQAデータセットなど、さまざまなデータセットを使用して、時間的理解能力を強化している。
イメージとインターリーブされたデータは、モデルのセマンティック認識能力をさらに強化するためにも使用される。
TimeMarkerは、複数のベンチマークで最先端のパフォーマンスを実現し、ショートビデオとロングビデオの両方で優れています。
プロジェクトページは \url{https://github.com/TimeMarker-LLM/TimeMarker/} にあります。
関連論文リスト
- Fine-grained Video-Text Retrieval: A New Benchmark and Method [25.2967056489715]
FIBERは,FineActionデータセットから生成した1,000本のビデオを含むビデオ検索に,テキスト用の微細なbenchmarkである。
FIBERベンチマークでは,ビデオ毎の詳細な空間アノテーションと時間アノテーションが提供されている。
実験の結果,従来のベンチマークにおいて,ビデオ大言語(VLLE)はCLIPベースのモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Video LLMs for Temporal Reasoning in Long Videos [7.2900856926028155]
テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。
我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
論文 参考訳(メタデータ) (2024-12-04T00:50:33Z) - ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos [25.988212332357545]
ReVisionLLMは、1時間ビデオ中のイベントを見つけるために設計された視覚言語モデルである。
人間の検索戦略にインスパイアされた私たちのモデルは、当初は幅広い関心領域をターゲットとしていました。
私たちのモデルは、数分から数時間の間、非常に異なる長さの動画をシームレスに処理することができます。
論文 参考訳(メタデータ) (2024-11-22T12:46:50Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding [20.037781644877388]
TimeChatは、長いビデオ理解のために特別に設計された、時間に敏感なマルチモーダルな大規模言語モデルである。
本モデルは,(1) フレームのタイムスタンプに視覚的コンテンツをバインドするタイムスタンプ対応フレームエンコーダ,(2) 長さの異なるビデオトークンシーケンスを生成するスライドビデオQ-Formerの2つの重要なアーキテクチャ的コントリビューションを含む。
論文 参考訳(メタデータ) (2023-12-04T17:09:52Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization [52.234877003211814]
我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T03:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。