論文の概要: Prefix Language Models are Unified Modal Learners
- arxiv url: http://arxiv.org/abs/2206.07699v1
- Date: Wed, 15 Jun 2022 17:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:53:33.209583
- Title: Prefix Language Models are Unified Modal Learners
- Title(参考訳): モーダル学習者のためのプレフィックス言語モデル
- Authors: Shizhe Diao, Wangchunshu Zhou, Xinsong Zhang, Jiawei Wang
- Abstract要約: そこで本研究では,テキストおよび画像シーケンスに基づいて,プレフィックス言語モデリング目標を用いて,統一モーダルモデルが学習可能であることを示す。
シンプルだが強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、さまざまなダウンストリームタスクに適応できます。
- 参考スコア(独自算出の注目度): 30.666873206462295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of vision-language pre-training, we have witnessed the
state-of-the-art has been pushed on multi-modal understanding and generation.
However, the current pre-training paradigm is either incapable of targeting all
modalities at once (e.g., text generation and image generation), or requires
multi-fold well-designed tasks which significantly limits the scalability. We
demonstrate that a unified modal model could be learned with a prefix language
modeling objective upon text and image sequences. Thanks to the simple but
powerful pre-training paradigm, our proposed model, DaVinci, is simple to
train, scalable to huge data, and adaptable to a variety of downstream tasks
across modalities (language / vision / vision+language), types (understanding /
generation) and settings (e.g., zero-shot, fine-tuning, linear evaluation) with
a single unified architecture. DaVinci achieves the competitive performance on
a wide range of 26 understanding / generation tasks, and outperforms previous
unified vision-language models on most tasks, including ImageNet classification
(+1.6%), VQAv2 (+1.4%), COCO caption generation (BLEU@4 +1.1%, CIDEr +1.5%) and
COCO image generation (IS +0.9%, FID -1.0%), at the comparable model and data
scale. Furthermore, we offer a well-defined benchmark for future research by
reporting the performance on different scales of the pre-training dataset on a
heterogeneous and wide distribution coverage. Our results establish new,
stronger baselines for future comparisons at different data scales and shed
light on the difficulties of comparing VLP models more generally.
- Abstract(参考訳): 視覚言語事前学習の成功により、最新技術がマルチモーダル理解と生成に押されているのが目撃されている。
しかし、現在の事前学習パラダイムは、すべてのモダリティ(テキスト生成や画像生成など)を一度にターゲットできないか、あるいはスケーラビリティを著しく制限するマルチフォールドの well-designed タスクを必要とする。
テキストと画像のシーケンスに対してプレフィックス言語モデル目標を用いて統一モーダルモデルを学習できることを実証する。
シンプルで強力な事前トレーニングパラダイムのおかげで、提案したモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、モダリティ(言語/ビジョン/ビジョン+言語)、型(理解/生成)、設定(ゼロショット、微調整、線形評価など)のさまざまなダウンストリームタスクに、単一の統一アーキテクチャで適応できます。
DaVinciは26の理解/生成タスクにおける競争性能を達成し、ImageNetの分類(+1.6%)、VQAv2(+1.4%)、COCOキャプション生成(BLEU@4 +1.1%、CIDEr +1.5%)、COCO画像生成(IS +0.9%、FID -1.0%)など、ほとんどのタスクにおいて従来の統合ビジョン言語モデルよりも優れていた。
さらに,前訓練データセットの異なるスケールでの性能を異種多種多様な分布範囲で報告することにより,今後の研究のための明確に定義されたベンチマークを提供する。
以上の結果から,VLPモデルの比較の難しさを浮き彫りにした。
関連論文リスト
- UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。