論文の概要: TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment
- arxiv url: http://arxiv.org/abs/2405.13911v2
- Date: Sun, 03 Nov 2024 09:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:22.329358
- Title: TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment
- Title(参考訳): TOPA:テキストのみの事前アライメントによるビデオ理解のための大規模言語モデルの拡張
- Authors: Wei Li, Hehe Fan, Yongkang Wong, Mohan Kankanhalli, Yi Yang,
- Abstract要約: ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。
ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
- 参考スコア(独自算出の注目度): 42.557643515992005
- License:
- Abstract: Recent advancements in image understanding have benefited from the extensive use of web image-text pairs. However, video understanding remains a challenge despite the availability of substantial web video-text data. This difficulty primarily arises from the inherent complexity of videos and the inefficient language supervision in recent web-collected video-text datasets. In this paper, we introduce Text-Only Pre-Alignment (TOPA), a novel approach to extend large language models (LLMs) for video understanding, without the need for pre-training on real video data. Specifically, we first employ an advanced LLM to automatically generate Textual Videos comprising continuous textual frames, along with corresponding annotations to simulate real video-text data. Then, these annotated textual videos are used to pre-align a language-only LLM with the video modality. To bridge the gap between textual and real videos, we employ the CLIP model as the feature extractor to align image and text modalities. During text-only pre-alignment, the continuous textual frames, encoded as a sequence of CLIP text features, are analogous to continuous CLIP image features, thus aligning the LLM with real video representation. Extensive experiments, including zero-shot evaluation and finetuning on various video understanding tasks, demonstrate that TOPA is an effective and efficient framework for aligning video content with LLMs. In particular, without training on any video data, the TOPA-Llama2-13B model achieves a Top-1 accuracy of 51.0% on the challenging long-form video understanding benchmark, Egoschema. This performance surpasses previous video-text pre-training approaches and proves competitive with recent GPT-3.5-based video agents.
- Abstract(参考訳): 画像理解の最近の進歩は、Web画像とテキストのペアの広範な利用の恩恵を受けている。
しかし、ビデオの理解は、Webビデオテキストデータがかなりあるにもかかわらず、依然として課題である。
この困難は、ビデオの本質的な複雑さと、最近のWebで収集されたビデオテキストデータセットにおける非効率な言語監督から生じる。
本稿では,ビデオ理解のための大規模言語モデル(LLM)の拡張手法であるText-Only Pre-Alignment (TOPA)を紹介する。
具体的には、まず先進的なLCMを用いて、連続したテキストフレームからなるテキストビデオを自動的に生成し、それに対応するアノテーションを実際のビデオテキストデータをシミュレートする。
そして、これらの注釈付きテキストビデオを用いて、ビデオモダリティで言語のみのLLMを事前調整する。
テキストと実際のビデオのギャップを埋めるために,CLIPモデルを特徴抽出器として使用し,画像とテキストのモダリティの整合を図る。
テキストのみの事前アライメントでは、CLIPテキスト機能のシーケンスとしてエンコードされた連続テキストフレームは、連続CLIPイメージ機能と類似しており、LLMを実際のビデオ表現と整合させる。
ビデオ理解タスクのゼロショット評価や微調整を含む大規模な実験は、TOPAがビデオコンテンツとLLMを協調するための効率的かつ効率的なフレームワークであることを実証している。
特に、ビデオデータをトレーニングせずにTOPA-Llama2-13Bモデルは、挑戦的な長文ビデオ理解ベンチマークであるEgoschemaでトップ1の精度を51.0%達成している。
この性能は、従来のビデオテキスト事前学習手法を超越し、最近のGPT-3.5ベースのビデオエージェントと競合することを示す。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - HawkEye: Training Video-Text LLMs for Grounding Text in Videos [44.870165050047355]
我々は,HawkEyeを提案する。HawkEyeは,時間的ビデオグラウンドディングをテキストからテキストまで完全に行う最初のビデオテキストLLMの1つである。
時間的ビデオグラウンドイングに適用可能なトレーニングデータを収集するために,セグメントレベルのキャプションと負のスパンを持つ大規模ビデオテキストコーパスであるInternVid-Gを構築した。
また,ビデオ中のセグメントを粗い粒度で表現する手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T11:58:18Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。