論文の概要: ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training
- arxiv url: http://arxiv.org/abs/2210.01738v1
- Date: Tue, 4 Oct 2022 16:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:03:37.665959
- Title: ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training
- Title(参考訳): アシフ氏:連結データはトレーニングなしでユニモーダルモデルをマルチモーダルに変える
- Authors: Antonio Norelli, Marco Fumero, Valentino Maiorca, Luca Moschella,
Emanuele Rodol\`a, Francesco Locatello
- Abstract要約: ネットワークをトレーニングすることなく,テキストや画像の整列に十分な相対表現が十分であることを示す。
本手法は、利用可能な単一ドメインエンコーダと、画像-テキストペアの数(比較)に頼っている。
- 参考スコア(独自算出の注目度): 19.1446305184006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning the visual and language spaces requires to train deep neural
networks from scratch on giant multimodal datasets; CLIP trains both an image
and a text encoder, while LiT manages to train just the latter by taking
advantage of a pretrained vision network. In this paper, we show that sparse
relative representations are sufficient to align text and images without
training any network. Our method relies on readily available single-domain
encoders (trained with or without supervision) and a modest (in comparison)
number of image-text pairs. ASIF redefines what constitutes a multimodal model
by explicitly disentangling memory from processing: here the model is defined
by the embedded pairs of all the entries in the multimodal dataset, in addition
to the parameters of the two encoders. Experiments on standard zero-shot visual
benchmarks demonstrate the typical transfer ability of image-text models.
Overall, our method represents a simple yet surprisingly strong baseline for
foundation multimodal models, raising important questions on their data
efficiency and on the role of retrieval in machine learning.
- Abstract(参考訳): CLIPはイメージとテキストエンコーダの両方をトレーニングし、LiTは事前トレーニングされたビジョンネットワークを活用することで、後者のみをトレーニングする。
本稿では,ネットワークを訓練することなく,テキストや画像のアライメントを行うのに十分であることを示す。
本手法は、容易に利用可能な単一ドメインエンコーダと、画像テキストペアの控えめな数(比較)に依存する。
ASIFは、メモリを明示的に処理から切り離すことによって、マルチモーダルモデルを構成するものを再定義する: ここで、モデルは、2つのエンコーダのパラメータに加えて、マルチモーダルデータセットの全エントリの組込みペアによって定義される。
標準ゼロショットビジュアルベンチマークの実験は、画像テキストモデルの典型的な転送能力を示している。
全体として,本手法は,基礎的マルチモーダルモデルにおいて,シンプルながら驚くほど強力なベースラインであり,データ効率や機械学習における検索の役割について重要な疑問を提起する。
関連論文リスト
- VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval [10.603148564713518]
汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。
画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを導入する。
第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。
論文 参考訳(メタデータ) (2024-06-06T17:37:47Z) - EVE: Efficient Vision-Language Pre-training with Masked Prediction and
Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。
Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。
Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-08-23T07:36:30Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Multimodal Semi-Supervised Learning for Text Recognition [10.33262222726707]
本稿では,モダリティ学習の各段階におけるラベルなしデータを活用する多モーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。
我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。
新たなセットアップでは、各モダリティに個別に一貫性が強制される。
論文 参考訳(メタデータ) (2022-05-08T13:55:30Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。