論文の概要: Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos
- arxiv url: http://arxiv.org/abs/2408.14023v1
- Date: Mon, 26 Aug 2024 05:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:02:44.413646
- Title: Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos
- Title(参考訳): Video-CCAM:ショートビデオとロングビデオのためのカスタルクロスアテンションマスクによるビデオ言語理解の強化
- Authors: Jiajun Fei, Dian Li, Zhidong Deng, Zekun Wang, Gang Liu, Hui Wang,
- Abstract要約: ビデオMLLMはビデオ言語理解に広く関心を集めている。
ビデオ、特に長いビデオは、画像よりも視覚的なトークンを含んでいるため、LLMが処理するのが困難である。
Video-CCAMは、機能アライメントとビジュアルインストラクションチューニングという、単純な2段階の方法でトレーニングされている。
MVBench と TGIF-QA では 1st/2nd/3rd、MSVD-QA では 2nd/3rd/4th、MSRVTT-QA では ActivityNet-QA である。
- 参考スコア(独自算出の注目度): 12.36107767104469
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal large language models (MLLMs) have demonstrated considerable potential across various downstream tasks that require cross-domain knowledge. MLLMs capable of processing videos, known as Video-MLLMs, have attracted broad interest in video-language understanding. However, videos, especially long videos, contain more visual tokens than images, making them difficult for LLMs to process. Existing works either downsample visual features or extend the LLM context size, risking the loss of high-resolution information or slowing down inference speed. To address these limitations, we apply cross-attention layers in the intermediate projector between the visual encoder and the large language model (LLM). As the naive cross-attention mechanism is insensitive to temporal order, we further introduce causal cross-attention masks (CCAMs) within the cross-attention layers. This Video-MLLM, named Video-CCAM, is trained in a straightforward two-stage fashion: feature alignment and visual instruction tuning. We develop several Video-CCAM models based on LLMs of different sizes (4B, 9B, and 14B). Video-CCAM proves to be a robust Video-MLLM and shows outstanding performance from short videos to long ones. Among standard video benchmarks like MVBench and VideoChatGPT-QA, Video-CCAM shows outstanding performances (1st/2nd/3rd in MVBench and TGIF-QA, 2nd/3rd/4th in MSVD-QA, MSRVTT-QA, and ActivityNet-QA). In benchmarks encompassing long videos, Video-CCAM models can be directly adapted to long video understanding and still achieve exceptional scores despite being trained solely with images and 16-frame videos. Using 96 frames (6$\times$ the training number of frames), Video-CCAM models rank 1st/2nd/3rd in VideoVista and 1st/2nd/4th in MLVU among all open-source Video-MLLMs, respectively. The code is publicly available in \url{https://github.com/QQ-MM/Video-CCAM}.
- Abstract(参考訳): マルチモーダルな大言語モデル (MLLM) は、ドメイン間の知識を必要とする様々な下流タスクにおいて大きな可能性を証明している。
Video-MLLMとして知られるビデオを処理するMLLMは、ビデオ言語理解に広く関心を集めている。
しかし、ビデオ、特に長いビデオは、画像よりも視覚的なトークンを含んでいるため、LLMが処理するのが困難である。
既存の作業は視覚的特徴を縮小するか、LLMコンテキストサイズを拡張し、高解像度情報の損失や推論速度の低下を危険にさらす。
これらの制約に対処するため、視覚エンコーダと大言語モデル(LLM)の間の中間プロジェクタにクロスアテンション層を適用する。
また, 有意な交叉保持機構は時間的秩序に敏感であるため, クロスアテンション層内に因果的交叉マスク(CCAM)を導入する。
Video-CCAMと名付けられたこのビデオMLLMは、機能アライメントとビジュアルインストラクションチューニングという、単純な2段階のやり方で訓練されている。
異なるサイズ (4B, 9B, 14B) のLCMをベースとしたビデオCCAMモデルを開発した。
Video-CCAMは堅牢なビデオMLLMであることが証明され、短いビデオから長いビデオまで優れたパフォーマンスを示している。
MVBench や VideoChatGPT-QA のような標準的なビデオベンチマークの中で、Video-CCAM は優れたパフォーマンスを示している(MVBench と TGIF-QA では 1st/2nd/3rd、MSVD-QA では 2rd/3rd/4th、MSRVTT-QA では MSRVTT-QA と ActivityNet-QA)。
長いビデオを含むベンチマークでは、ビデオCCAMモデルは、長いビデオの理解に直接適応でき、画像や16フレームのビデオでのみ訓練されているにもかかわらず、例外的なスコアを得られる。
96フレーム (6$\times$ the training number of frames) を用いて、 Video-CCAM モデルは VideoVista では 1st/2nd/3 で、MLVU では 1st/2nd/4 でそれぞれ、すべてのオープンソース Video-MLLM では 1st/2nd/4 である。
コードは \url{https://github.com/QQ-MM/Video-CCAM} で公開されている。
関連論文リスト
- Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。