論文の概要: Semi-supervised Multimodal Representation Learning through a Global Workspace
- arxiv url: http://arxiv.org/abs/2306.15711v2
- Date: Mon, 27 May 2024 09:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 12:18:33.735753
- Title: Semi-supervised Multimodal Representation Learning through a Global Workspace
- Title(参考訳): グローバルワークスペースによる半教師付きマルチモーダル表現学習
- Authors: Benjamin Devillers, Léopold Maytié, Rufin VanRullen,
- Abstract要約: グローバルワークスペース」は2つの入力モダリティの共有表現である。
このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。
このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
- 参考スコア(独自算出の注目度): 2.8948274245812335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep learning models can efficiently combine inputs from different modalities (e.g., images and text) and learn to align their latent representations, or to translate signals from one domain to another (as in image captioning, or text-to-image generation). However, current approaches mainly rely on brute-force supervised training over large multimodal datasets. In contrast, humans (and other animals) can learn useful multimodal representations from only sparse experience with matched cross-modal data. Here we evaluate the capabilities of a neural network architecture inspired by the cognitive notion of a "Global Workspace": a shared representation for two (or more) input modalities. Each modality is processed by a specialized system (pretrained on unimodal data, and subsequently frozen). The corresponding latent representations are then encoded to and decoded from a single shared workspace. Importantly, this architecture is amenable to self-supervised training via cycle-consistency: encoding-decoding sequences should approximate the identity function. For various pairings of vision-language modalities and across two datasets of varying complexity, we show that such an architecture can be trained to align and translate between two modalities with very little need for matched data (from 4 to 7 times less than a fully supervised approach). The global workspace representation can be used advantageously for downstream classification tasks and for robust transfer learning. Ablation studies reveal that both the shared workspace and the self-supervised cycle-consistency training are critical to the system's performance.
- Abstract(参考訳): 近年のディープラーニングモデルは、異なるモード(画像やテキストなど)からの入力を効率よく組み合わせて、潜在表現を整列させたり、あるドメインから別のドメイン(画像キャプションやテキストから画像生成など)に信号を変換したりすることができる。
しかし、現在のアプローチは主に、大規模なマルチモーダルデータセットに対するブルートフォースによる教師ありトレーニングに依存している。
対照的に、人間(および他の動物)は、一致するクロスモーダルデータによるスパースな経験から、有用なマルチモーダル表現を学ぶことができる。
ここでは、2つの(あるいはそれ以上の)入力モダリティの共有表現である「グローバルワークスペース」の認知概念に着想を得たニューラルネットワークアーキテクチャの機能を評価する。
それぞれのモダリティは、特別なシステムによって処理される(単調なデータに基づいて調整され、その後凍結される)。
対応する潜在表現は、単一の共有ワークスペースからエンコードされ、デコードされる。
重要なことは、このアーキテクチャはサイクル整合性による自己教師型トレーニングに適しており、符号化復号シーケンスはアイデンティティ関数を近似すべきである。
視覚言語による様々なモダリティのペアリングと、複雑さの異なる2つのデータセットに対して、このようなアーキテクチャは、マッチしたデータ(完全に教師されたアプローチの4倍から7倍)をほとんど必要とせずに、2つのモダリティを調整し、翻訳するように訓練できることを示す。
グローバルなワークスペース表現は、下流の分類タスクやロバストな転送学習に有利に利用できる。
アブレーション研究により、共有ワークスペースと自己監督型サイクル一貫性トレーニングの両方がシステムの性能に欠かせないことが判明した。
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.691068754720106]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文 参考訳(メタデータ) (2024-03-08T13:29:46Z) - Zero-shot cross-modal transfer of Reinforcement Learning policies
through a Global Workspace [48.24821328103934]
筆者らは,2つの入力モダリティによって収集された環境情報を活用するために,「グローバルワークスペース」を訓練する。
2つの異なる環境とタスクにおいて、入力モダリティ間のゼロショット・クロスモーダル転送を行うモデルの能力を明らかにする。
論文 参考訳(メタデータ) (2024-03-07T15:35:29Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。