論文の概要: DeCUR: decoupling common & unique representations for multimodal
self-supervision
- arxiv url: http://arxiv.org/abs/2309.05300v2
- Date: Fri, 15 Sep 2023 13:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 17:25:51.013429
- Title: DeCUR: decoupling common & unique representations for multimodal
self-supervision
- Title(参考訳): decur:マルチモーダル自己スーパービジョンのための共通表現と一意表現の分離
- Authors: Yi Wang, Conrad M Albrecht, Nassim Ait Ali Braham, Chenying Liu,
Zhitong Xiong, Xiao Xiang Zhu
- Abstract要約: マルチモーダルな自己教師型学習のためのDecoupling Common and Unique Representations (DeCUR)を提案する。
モーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合するように訓練される。
シーン分類とセマンティックセグメンテーションの下流タスクにおける一貫した利点を示す。
- 参考スコア(独自算出の注目度): 23.44643489648528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing availability of multi-sensor data sparks interest in
multimodal self-supervised learning. However, most existing approaches learn
only common representations across modalities while ignoring intra-modal
training and modality-unique representations. We propose Decoupling Common and
Unique Representations (DeCUR), a simple yet effective method for multimodal
self-supervised learning. By distinguishing inter- and intra-modal embeddings,
DeCUR is trained to integrate complementary information across different
modalities. We evaluate DeCUR in three common multimodal scenarios
(radar-optical, RGB-elevation, and RGB-depth), and demonstrate its consistent
benefits on scene classification and semantic segmentation downstream tasks.
Notably, we get straightforward improvements by transferring our pretrained
backbones to state-of-the-art supervised multimodal methods without any
hyperparameter tuning. Furthermore, we conduct a comprehensive explainability
analysis to shed light on the interpretation of common and unique features in
our multimodal approach. Codes are available at
\url{https://github.com/zhu-xlab/DeCUR}.
- Abstract(参考訳): マルチセンサーデータの可用性が高まると、マルチモーダル自己教師付き学習への関心が高まる。
しかしながら、既存のアプローチのほとんどはモダリティ間の共通表現のみを学習し、モダリティ内トレーニングやモダリティ・ユニティ表現は無視している。
マルチモーダルな自己教師型学習のための簡易かつ効果的な方法として,Decoupling Common and Unique Representations (DeCUR)を提案する。
モーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合するように訓練される。
我々はDECURを3つの一般的なマルチモーダルシナリオ(レーダー光学、RGB標高、RGB深度)で評価し、シーン分類とセマンティックセグメンテーションにおける一貫した利点を示す。
特に、トレーニング済みのバックボーンをハイパーパラメータチューニングなしで、最先端の教師付きマルチモーダルメソッドに転送することで、簡単に改善できる。
さらに,マルチモーダルアプローチにおける共通点と特異点の解釈について,包括的説明可能性分析を行った。
コードは \url{https://github.com/zhu-xlab/decur} で入手できる。
関連論文リスト
- Harnessing Shared Relations via Multimodal Mixup Contrastive Learning for Multimodal Classification [3.6616868775630587]
マルチモーダルデータに固有のニュアンス付き共有関係を抽出するマルチモーダル混合コントラスト学習手法であるM3CoLを提案する。
我々の研究は、堅牢なマルチモーダル学習のための共有関係の学習の重要性を強調し、将来の研究に有望な道を開く。
論文 参考訳(メタデータ) (2024-09-26T12:15:13Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
この定式化から,情報共有,相乗的,一意的な用語が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Self-attention Multi-view Representation Learning with
Diversity-promoting Complementarity [4.213976613562574]
マルチビュー学習は、マルチビューデータ間のコンセンサスと/または相補性を利用して、より良いパフォーマンスでモデルを生成する。
本稿では,多目的相補性を有する自己注意型多視点ネットワークという,教師付き多視点表現学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-01T11:17:02Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。