論文の概要: MoMo: A shared encoder Model for text, image and multi-Modal
representations
- arxiv url: http://arxiv.org/abs/2304.05523v1
- Date: Tue, 11 Apr 2023 22:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:35:35.495368
- Title: MoMo: A shared encoder Model for text, image and multi-Modal
representations
- Title(参考訳): MoMo: テキスト、画像、マルチモーダル表現のための共有エンコーダモデル
- Authors: Rakesh Chada, Zhaoheng Zheng, Pradeep Natarajan
- Abstract要約: 本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
- 参考スコア(独自算出の注目度): 4.812718493682455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a self-supervised shared encoder model that achieves strong
results on several visual, language and multimodal benchmarks while being data,
memory and run-time efficient. We make three key contributions. First, in
contrast to most existing works, we use a single transformer with all the
encoder layers processing both the text and the image modalities. Second, we
propose a stage-wise training strategy where the model is first trained on
images, then jointly with unimodal text and image datasets and finally jointly
with text and text-image datasets. Third, to preserve information across both
the modalities, we propose a training pipeline that learns simultaneously from
gradient updates of different modalities at each training update step. The
results on downstream text-only, image-only and multimodal tasks show that our
model is competitive with several strong models while using fewer parameters
and lesser pre-training data. For example, MoMo performs competitively with
FLAVA on multimodal (+3.1), image-only (+1.1) and text-only (-0.1) tasks
despite having 2/5th the number of parameters and using 1/3rd the image-text
training pairs. Finally, we ablate various design choices and further show that
increasing model size produces significant performance gains indicating
potential for substantial improvements with larger models using our approach.
- Abstract(参考訳): 本稿では,データ,メモリ,実行時の効率を向上しつつ,複数の視覚,言語,マルチモーダルベンチマークにおいて強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
私たちは3つの重要な貢献をします。
まず、既存のほとんどの作品とは対照的に、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用します。
第2に、まずモデルが画像上でトレーニングされ、次にユニモーダルテキストと画像データセット、最後にテキストとテキスト画像データセットと共同でトレーニングされる段階的トレーニング戦略を提案する。
第3に,両方のモダリティにまたがる情報を保存するために,各トレーニング更新ステップで異なるモダリティの勾配更新から同時に学習するトレーニングパイプラインを提案する。
ダウンストリームのテキストオンリー、イメージオンリー、マルチモーダルタスクの結果から、より少ないパラメータとより少ない事前トレーニングデータを使用しながら、いくつかの強力なモデルと競合することが分かりました。
例えば、マルチモーダル(+3.1)、イメージオンリー(+1.1)、テキストオンリー(-0.1)のタスクでFLAVAと競合する。
最後に, モデルサイズの増加は, 大規模モデルによる大幅な改善の可能性を示す重要な性能向上をもたらすことを示す。
関連論文リスト
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。