論文の概要: Clover: Towards A Unified Video-Language Alignment and Fusion Model
- arxiv url: http://arxiv.org/abs/2207.07885v1
- Date: Sat, 16 Jul 2022 09:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:45:18.455098
- Title: Clover: Towards A Unified Video-Language Alignment and Fusion Model
- Title(参考訳): Clover: 統合ビデオ言語アライメントとフュージョンモデルを目指して
- Authors: Jingjia Huang, Yinan Li, Jiashi Feng, Xiaoshuai Sun and Rongrong Ji
- Abstract要約: 我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 154.1070559563592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a universal video-language model for solving various video
understanding tasks (e.g., text-video retrieval, video question answering) is
an open challenge to the machine learning field. Towards this goal, most recent
attempts train the models, usually consisting of uni-modal and cross-modal
feature encoders, with supervised or pair-wise contrastive pre-text tasks.
Though offering attractive generality, the resulted models have to compromise
between efficiency and performance. We argue the flaws are caused by their
pre-training strategies\textemdash they cannot well align and fuse features
from different modalities simultaneously. We then introduce Clover -- a
Correlated Video-Language pre-training method -- towards a universal
video-language model for solving multiple video understanding tasks with
neither performance nor efficiency compromise. It improves cross-modal feature
alignment and fusion via a novel tri-modal alignment pre-training task.
Additionally, we propose to enhance the tri-modal alignment via incorporating
learning from masked samples and a novel pair-wise ranking loss. Clover
demonstrates outstanding generality. It establishes new state-of-the-arts on
multiple downstream tasks, including three retrieval tasks for both zero-shot
and fine-tuning settings, and eight video question answering tasks. Codes and
pre-trained models will be released at https://github.com/LeeYN-43/Clover.
- Abstract(参考訳): さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。
この目標に向けて、最近の試みでは、通常はユニモーダルとクロスモーダルの機能エンコーダで構成されるモデルをトレーニングしている。
魅力的な汎用性を提供するが、結果として得られたモデルは効率と性能を損なう必要がある。
この欠陥は、事前トレーニング戦略によって引き起こされている、と主張する。textemdashは、異なるモダリティから機能を適切に調整し、同時に融合することはできない。
次に、複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。
新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。
さらに,マスク付きサンプルからの学習と,新しいペアワイズランキングロスを組み込むことにより,三モードアライメントを強化することを提案する。
クローバーは卓越した一般性を示している。
これには、ゼロショットと微調整の両方のための3つの検索タスクと8つのビデオ質問応答タスクが含まれる。
コードと事前トレーニングされたモデルはhttps://github.com/leeyn-43/cloverでリリースされる。
関連論文リスト
- MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。