論文の概要: An Empirical Study of End-to-End Video-Language Transformers with Masked
Visual Modeling
- arxiv url: http://arxiv.org/abs/2209.01540v4
- Date: Tue, 30 May 2023 06:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:45:51.487191
- Title: An Empirical Study of End-to-End Video-Language Transformers with Masked
Visual Modeling
- Title(参考訳): マスク視覚モデルを用いたエンドツーエンドビデオ言語変換器の実証的研究
- Authors: Tsu-Jui Fu and Linjie Li and Zhe Gan and Kevin Lin and William Yang
Wang and Lijuan Wang and Zicheng Liu
- Abstract要約: Masked Visual Modeling (MVM) は視覚前トレーニングに有効であることが最近証明されている。
VidL学習におけるMVMの可能性について,系統的に検討した。
我々は、MVMで事前トレーニングされたVIOLETv2が、13のVidLベンチマークで顕著な改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 152.75131627307567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked visual modeling (MVM) has been recently proven effective for visual
pre-training. While similar reconstructive objectives on video inputs (e.g.,
masked frame modeling) have been explored in video-language (VidL)
pre-training, previous studies fail to find a truly effective MVM strategy that
can largely benefit the downstream performance. In this work, we systematically
examine the potential of MVM in the context of VidL learning. Specifically, we
base our study on a fully end-to-end VIdeO-LanguagE Transformer (VIOLET), where
the supervision from MVM training can be backpropagated to the video pixel
space. In total, eight different reconstructive targets of MVM are explored,
from low-level pixel values and oriented gradients to high-level depth maps,
optical flow, discrete visual tokens, and latent visual features. We conduct
comprehensive experiments and provide insights into the factors leading to
effective MVM training, resulting in an enhanced model VIOLETv2. Empirically,
we show VIOLETv2 pre-trained with MVM objective achieves notable improvements
on 13 VidL benchmarks, ranging from video question answering, video captioning,
to text-to-video retrieval.
- Abstract(参考訳): Masked Visual Modeling (MVM)は視覚前トレーニングに有効であることが最近証明されている。
ビデオ入力(例えば、マスク付きフレームモデリング)における同様の再構築目的が、ビデオ言語(vidl)事前トレーニングで検討されているが、以前の研究では、下流のパフォーマンスに大きな利益をもたらす真に効果的なmvm戦略を見いだせていない。
本研究では,VidL学習におけるMVMの可能性について,系統的に検討する。
具体的には、MVMトレーニングの監督をビデオピクセル空間に戻すことができる、完全なエンドツーエンドVIOLET(VIdeO-LanguagE Transformer)に基づく。
低レベル画素値と配向勾配から高レベル深度マップ,光フロー,離散的視覚トークン,潜時視覚特徴に至るまで,MVMの8つの異なる再構成対象を探索した。
我々は総合的な実験を行い、MVMの効果的なトレーニングにつながる要因について洞察を提供する。
実験により,MVM目標で事前学習したVIOLETv2は,ビデオ質問応答,ビデオキャプション,テキスト・ツー・ビデオ検索など,13のVidLベンチマークにおいて顕著な改善を実現している。
関連論文リスト
- How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models [29.825619120260164]
本稿では,映像と映像の視覚的共通性を活かして,映像LVLMをビデオLVLMに進化させることによる課題に対処する。
本稿では、モデルアーキテクチャを強化し、革新的なトレーニング戦略を導入し、最も効果的なタイプのビデオ命令データを特定する、費用対効果のあるビデオLVLMを提案する。
論文 参考訳(メタデータ) (2024-06-12T09:22:45Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。