論文の概要: OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
- arxiv url: http://arxiv.org/abs/2209.07526v1
- Date: Thu, 15 Sep 2022 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:04:23.068232
- Title: OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
- Title(参考訳): OmniVL:画像言語とビデオ言語タスクのための基礎モデル
- Authors: Junke Wang and Dongdong Chen and Zuxuan Wu and Chong Luo and Luowei
Zhou and Yucheng Zhao and Yujia Xie and Ce Liu and Yu-Gang Jiang and Lu Yuan
- Abstract要約: 我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
- 参考スコア(独自算出の注目度): 117.57580168859512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents OmniVL, a new foundation model to support both
image-language and video-language tasks using one universal architecture. It
adopts a unified transformer-based visual encoder for both image and video
inputs, and thus can perform joint image-language and video-language
pretraining. We demonstrate, for the first time, such a paradigm benefits both
image and video tasks, as opposed to the conventional one-directional transfer
(e.g., use image-language to help video-language). To this end, we propose a
decoupled joint pretraining of image-language and video-language to effectively
decompose the vision-language modeling into spatial and temporal dimensions and
obtain performance boost on both image and video tasks. Moreover, we introduce
a novel unified vision-language contrastive (UniVLC) loss to leverage
image-text, video-text, image-label (e.g., image classification), video-label
(e.g., video action recognition) data together, so that both supervised and
noisily supervised pretraining data are utilized as much as possible. Without
incurring extra task-specific adaptors, OmniVL can simultaneously support
visual only tasks (e.g., image classification, video action recognition),
cross-modal alignment tasks (e.g., image/video-text retrieval), and multi-modal
understanding and generation tasks (e.g., image/video question answering,
captioning). We evaluate OmniVL on a wide range of downstream tasks and achieve
state-of-the-art or competitive results with similar model size and data scale.
- Abstract(参考訳): 本稿では,1つのユニバーサルアーキテクチャを用いて画像言語と映像言語の両方をサポートする新しい基礎モデルであるOmniVLを提案する。
画像入力とビデオ入力の両方に統一トランスフォーマーベースのビジュアルエンコーダを採用しており、画像言語とビデオ言語の事前学習を共同で行うことができる。
このようなパラダイムは,従来の一方向移動とは対照的に,画像と映像の両方のタスクに初めてメリットがある(例えば,映像言語を用いてビデオ言語を支援する)。
そこで本稿では,視覚言語モデリングを空間的および時間的次元に効果的に分解し,画像と映像の両方の性能向上を図るために,画像言語と映像言語の融合プリトレーニングを提案する。
さらに、画像テキスト、ビデオテキスト、画像ラベル(例えば、画像分類)、ビデオラベル(例えば、ビデオ行動認識)データを併用することにより、教師付きおよびノイズの多い事前訓練データの両方を可能な限り活用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
OmniVLは、タスク固有のアダプタを必要とせず、視覚のみのタスク(例えば、画像分類、ビデオアクション認識)、クロスモーダルアライメントタスク(例えば、画像/ビデオテキスト検索)、マルチモーダル理解および生成タスク(例えば、画像/ビデオ質問応答、キャプション)を同時にサポートする。
我々は、OmniVLを幅広い下流タスクで評価し、同様のモデルサイズとデータスケールで最先端または競争的な結果を得る。
関連論文リスト
- Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Learning video embedding space with Natural Language Supervision [1.6822770693792823]
本稿では,映像埋め込み空間を自然言語にマッピングする新しい手法を提案する。
本稿では,まず,事前学習したCNNを用いてビデオの各フレームから視覚的特徴を抽出し,次にCLIPモデルを用いて映像領域の視覚的特徴を符号化する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-25T23:24:57Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - Aligning Source Visual and Target Language Domains for Unpaired Video
Captioning [97.58101383280345]
教師付きビデオキャプションモデルの訓練には、組み合わせたビデオキャプションペアが必要である。
対象言語におけるビデオキャプションペアを結合せずにモデルを訓練することを目的とした未ペアビデオキャプションタスクを導入する。
論文 参考訳(メタデータ) (2022-11-22T10:26:26Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。