論文の概要: Data-Efficient Multimodal Fusion on a Single GPU
- arxiv url: http://arxiv.org/abs/2312.10144v2
- Date: Tue, 2 Jan 2024 15:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 19:29:08.905809
- Title: Data-Efficient Multimodal Fusion on a Single GPU
- Title(参考訳): 単一GPUにおけるデータ効率の良いマルチモーダル融合
- Authors: No\"el Vouitsis, Zhaoyan Liu, Satya Krishna Gorti, Valentin
Villecroze, Jesse C. Cresswell, Guangwei Yu, Gabriel Loaiza-Ganem, Maksims
Volkovs
- Abstract要約: FuseMix は任意の訓練済みの単調エンコーダの潜時空間で動作するスキームである。
本稿では,事前学習したテキストから画像への生成モデルを音声から画像へ変換する手法を提案する。
- 参考スコア(独自算出の注目度): 18.983377135221236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of multimodal alignment is to learn a single latent space that is
shared between multimodal inputs. The most powerful models in this space have
been trained using massive datasets of paired inputs and large-scale
computational resources, making them prohibitively expensive to train in many
practical scenarios. We surmise that existing unimodal encoders pre-trained on
large amounts of unimodal data should provide an effective bootstrap to create
multimodal models from unimodal ones at much lower costs. We therefore propose
FuseMix, a multimodal augmentation scheme that operates on the latent spaces of
arbitrary pre-trained unimodal encoders. Using FuseMix for multimodal
alignment, we achieve competitive performance -- and in certain cases
outperform state-of-the art methods -- in both image-text and audio-text
retrieval, with orders of magnitude less compute and data: for example, we
outperform CLIP on the Flickr30K text-to-image retrieval task with $\sim \!
600\times$ fewer GPU days and $\sim \! 80\times$ fewer image-text pairs.
Additionally, we show how our method can be applied to convert pre-trained
text-to-image generative models into audio-to-image ones. Code is available at:
https://github.com/layer6ai-labs/fusemix.
- Abstract(参考訳): マルチモーダルアライメントの目標は、マルチモーダル入力間で共有される単一の潜在空間を学習することである。
この分野でもっとも強力なモデルは、ペア化された入力と大規模な計算資源の膨大なデータセットを使用して訓練されており、多くの実践的なシナリオでトレーニングするのは非常に高価である。
我々は、大量のユニモーダルデータを事前学習した既存のユニモーダルエンコーダは、より低コストでユニモーダルデータからマルチモーダルモデルを作成するための効果的なブートストラップを提供するべきであると推測する。
そこで本稿では,任意の事前学習された単調エンコーダの潜在空間で動作するマルチモーダル拡張方式であるFuseMixを提案する。
マルチモーダルアライメントにFuseMixを使用することで、画像テキストとオーディオテキストの検索において、競合するパフォーマンス -- と、場合によっては最先端のメソッド -- を、桁違いに少ない計算とデータで上回ります。
600\times$GPUの日数を減らし、$\sim \!
80\times$少ない画像テキストペア。
さらに,事前学習したテキストから画像への生成モデルを音声から画像への変換に応用する方法を示す。
コードはhttps://github.com/layer6ai-labs/fusemix.com/で入手できる。
関連論文リスト
- CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features [18.5370516345512]
CLIPのようなマルチモーダルエンコーダは、ゼロショット画像分類やクロスモーダル検索といったタスクに優れている。
そこで本研究では,2つのユニモーダルエンコーダを用いて,制限データを用いたマルチモーダルエンコーダを複製する正準類似性解析(CSA)を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:54:37Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。
また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文 参考訳(メタデータ) (2023-11-28T04:34:44Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models [69.31424345583537]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
犬について読んだり、バークを聴いたりすることで、より優れた$bfビジュアルの犬分類器を構築できることを示す。
我々は、最初の(知識のために)オーディオヴィジュアルな数ショットのベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。