論文の概要: LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling
- arxiv url: http://arxiv.org/abs/2206.07160v1
- Date: Tue, 14 Jun 2022 20:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 23:15:33.128322
- Title: LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling
- Title(参考訳): LAVENDER: マスク言語モデリングとしてのビデオ言語理解の統合
- Authors: Linjie Li, Zhe Gan, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Ce Liu,
Lijuan Wang
- Abstract要約: Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
- 参考スコア(独自算出の注目度): 102.42424022921243
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unified vision-language frameworks have greatly advanced in recent years,
most of which adopt an encoder-decoder architecture to unify image-text tasks
as sequence-to-sequence generation. However, existing video-language (VidL)
models still require task-specific designs in model architecture and training
objectives for each task. In this work, we explore a unified VidL framework
LAVENDER, where Masked Language Modeling (MLM) is used as the common interface
for all pre-training and downstream tasks. Such unification leads to a
simplified model architecture, where only a lightweight MLM head, instead of a
decoder with much more parameters, is needed on top of the multimodal encoder.
Surprisingly, experimental results show that this unified framework achieves
competitive performance on 14 VidL benchmarks, covering video question
answering, text-to-video retrieval and video captioning. Extensive analyses
further demonstrate the advantage of LAVENDER over existing VidL methods in:
(i) supporting all downstream tasks with just a single set of parameter values
when multi-task finetuned; (ii) few-shot generalization on various downstream
tasks; and (iii) enabling zero-shot evaluation on video question answering
tasks. Code is available at https://github.com/microsoft/LAVENDER.
- Abstract(参考訳): 近年,画像テキスト処理をシーケンス・ツー・シーケンス生成として統一するエンコーダ・デコーダアーキテクチャが採用されている。
しかし、既存のビデオ言語(VidL)モデルでは、モデルアーキテクチャにおけるタスク固有の設計と各タスクの訓練目的が必要である。
本研究では,MLM(Masked Language Modeling)が事前学習および下流タスクの共通インターフェースとして使用される,統合VidLフレームワークであるLAVENDERについて検討する。
このような統一は、より多くのパラメータを持つデコーダの代わりに、軽量なmlmヘッドのみをマルチモーダルエンコーダ上に必要とする、単純化されたモデルアーキテクチャへと繋がる。
驚くべきことに、この統一フレームワークは14のvidlベンチマークにおいて、ビデオ質問応答、テキスト対ビデオ検索、ビデオキャプションといった競合性能を達成している。
拡張解析により、既存のVidL法に対するLAVENDERの利点がさらに示された。
(i)マルチタスクの微調整時に1セットのパラメータ値で全ての下流タスクをサポートすること。
(二)下流の諸課題に関する少数ショットの一般化
(iii)ビデオ質問応答タスクにおけるゼロショット評価を可能にする。
コードはhttps://github.com/microsoft/LAVENDERで入手できる。
関連論文リスト
- The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。