論文の概要: Video-LLaVA: Learning United Visual Representation by Alignment Before
Projection
- arxiv url: http://arxiv.org/abs/2311.10122v2
- Date: Tue, 21 Nov 2023 14:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:04:43.965135
- Title: Video-LLaVA: Learning United Visual Representation by Alignment Before
Projection
- Title(参考訳): Video-LLaVA: 投影前のアライメントによる統一視覚表現の学習
- Authors: Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan
- Abstract要約: 我々は、画像とビデオの混合データセットから学習し、相互に強化するVideo-LLaVAを紹介する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
特に、大規模な実験では、ビデオ-LLaVAは、画像やビデオ用に特別に設計されたモデルよりも優れた、統一された視覚表現内の画像とビデオに相互に利益をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 28.39885771124003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Large Vision-Language Model (LVLM) has enhanced the performance of
various downstream tasks in visual-language understanding. Most existing
approaches encode images and videos into separate feature spaces, which are
then fed as inputs to large language models. However, due to the lack of
unified tokenization for images and videos, namely misalignment before
projection, it becomes challenging for a Large Language Model (LLM) to learn
multi-modal interactions from several poor projection layers. In this work, we
unify visual representation into the language feature space to advance the
foundational LLM towards a unified LVLM. As a result, we establish a simple but
robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images
and videos, mutually enhancing each other. Video-LLaVA achieves superior
performances on a broad range of 9 image benchmarks across 5 image
question-answering datasets and 4 image benchmark toolkits. Additionally, our
Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on
MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive
experiments demonstrate that Video-LLaVA mutually benefits images and videos
within a unified visual representation, outperforming models designed
specifically for images or videos. We aim for this work to provide modest
insights into the multi-modal inputs for the LLM.
- Abstract(参考訳): large vision-language model (lvlm)は、視覚言語理解における様々な下流タスクのパフォーマンスを高めた。
既存のアプローチのほとんどは、画像とビデオを別々の特徴空間にエンコードし、それを大きな言語モデルへの入力として入力する。
しかし、画像と動画の統一トークン化が欠如していること、すなわち投影前の不一致が原因で、大きな言語モデル(llm)が複数の不適切な投影層からマルチモーダルなインタラクションを学ぶことが困難になる。
本研究では,視覚表現を言語特徴空間に統一し,基礎的LLMを統一LVLMに向けて前進させる。
その結果,画像と映像の混在したデータセットから学習し,相互に強化する,単純かつ堅牢なlvlmベースラインであるvideo-llavaが確立された。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークにおいて、優れたパフォーマンスを実現している。
さらにビデオラバはビデオチャットgptを5.8%,9.9%,18.6%,10.1%,msrvtt,msvd,tgif,activitynetをそれぞれ上回っている。
特に、大規模な実験では、ビデオ-LLaVAは、画像やビデオ用に特別に設計されたモデルよりも優れた、統一された視覚表現内の画像とビデオに相互に利益をもたらすことを示した。
本研究の目的は,LLMのマルチモーダルインプットに対する控えめな洞察を提供することである。
関連論文リスト
- TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models [29.825619120260164]
本稿では,映像と映像の視覚的共通性を活かして,映像LVLMをビデオLVLMに進化させることによる課題に対処する。
本稿では、モデルアーキテクチャを強化し、革新的なトレーニング戦略を導入し、最も効果的なタイプのビデオ命令データを特定する、費用対効果のあるビデオLVLMを提案する。
論文 参考訳(メタデータ) (2024-06-12T09:22:45Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。