論文の概要: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding
- arxiv url: http://arxiv.org/abs/2306.02858v1
- Date: Mon, 5 Jun 2023 13:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 15:02:11.342235
- Title: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding
- Title(参考訳): Video-LLaMA: 映像理解のための命令調整型オーディオ・ビジュアル言語モデル
- Authors: Hang Zhang, Xin Li, Lidong Bing
- Abstract要約: Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAのブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
- 参考スコア(独自算出の注目度): 37.46602744829322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~\citep{zhu2023minigpt} and LLaVA~\citep{liu2023visualit}, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~\citep{girdhar2023imagebind} as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
\url{https://github.com/DAMO-NLP-SG/Video-LLaMA}.
- Abstract(参考訳): 本稿では,ビデオ内の視覚的・聴覚的コンテンツの両方を理解する能力を備えた大規模言語モデル(LLM)を実現するマルチモーダルフレームワークであるVideo-LLaMAを提案する。
Video-LLaMAは、凍結事前訓練されたビジュアル \&オーディオエンコーダと凍結LDMからのクロスモーダルトレーニングを行う。
MiniGPT-4~\citep{zhu2023minigpt} や LLaVA~\citep{liu2023visualit} のような静的画像理解に焦点を当てた従来のビジョン-LLMとは異なり、Video-LLaMAはビデオ理解における2つの課題に対処している。
最初の課題として,事前学習した画像エンコーダをビデオエンコーダに拡張するビデオQ-formerを提案し,ビデオ言語対応学習のためのビデオ-テキスト生成タスクを提案する。
第2の課題として、imagebind~\citep{girdhar2023imagebind}を事前学習したオーディオエンコーダとして活用し、異なるモダリティを共通の埋め込み空間に整列させる。
そして、聴覚クエリトークンを学ぶためのAudio Q-formerを導入する。
映像と音声のエンコーダの出力をLLMの埋め込み空間と整合させるため,大規模視覚キャプションデータセットとハイクオリティ視覚インストラクションチューニングデータセットでVideo-LLaMAを訓練する。
ビデオ-LLaMAは,映像内容の知覚と理解能力を示し,映像に含まれる視覚情報や聴覚情報に基づく有意義な応答を生成する。
このことは、オーディオ視覚AIアシスタントの有望なプロトタイプとしてのVideo-LLaMAの可能性を強調している。
私たちのコード、事前トレーニングされたモデル、デモは、 \url{https://github.com/DAMO-NLP-SG/Video-LLaMA}で公開されています。
関連論文リスト
- InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding [50.897923408865026]
InternVideo2は、アクション認識、ハイライト、対話における最先端のパフォーマンスを実現する新しいビデオファンデーションモデル(FM)である。
当社のアプローチでは,マスク付きビデオトークン再構成,クロスモーダルコントラスト学習,トークン予測といった,自己中心あるいは弱中心の学習フレームワークを統一する。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - LLMs Meet Long Video: Advancing Long Video Comprehension with An
Interactive Visual Adapter in LLMs [24.79384819644494]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z) - Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。
GPT-4から派生した高品質のビデオ命令データセットを提案する。
実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文 参考訳(メタデータ) (2023-12-11T02:50:46Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。