論文の概要: Multimodal Understanding Through Correlation Maximization and
Minimization
- arxiv url: http://arxiv.org/abs/2305.03125v1
- Date: Thu, 4 May 2023 19:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:15:49.541632
- Title: Multimodal Understanding Through Correlation Maximization and
Minimization
- Title(参考訳): 相関最大化と最小化によるマルチモーダル理解
- Authors: Yifeng Shi, Marc Niethammer
- Abstract要約: マルチモーダルデータの本質的な性質について,以下の質問をすることで検討する。
汎用マルチモーダルデータのより構造化された潜在表現を学べるか?
数学的にも視覚的にも直感的に、潜在表現が何を捉えているのかを理解できますか?
- 参考スコア(独自算出の注目度): 23.8764755753415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning has mainly focused on learning large models on, and
fusing feature representations from, different modalities for better
performances on downstream tasks. In this work, we take a detour from this
trend and study the intrinsic nature of multimodal data by asking the following
questions: 1) Can we learn more structured latent representations of general
multimodal data?; and 2) can we intuitively understand, both mathematically and
visually, what the latent representations capture? To answer 1), we propose a
general and lightweight framework, Multimodal Understanding Through Correlation
Maximization and Minimization (MUCMM), that can be incorporated into any large
pre-trained network. MUCMM learns both the common and individual
representations. The common representations capture what is common between the
modalities; the individual representations capture the unique aspect of the
modalities. To answer 2), we propose novel scores that summarize the learned
common and individual structures and visualize the score gradients with respect
to the input, visually discerning what the different representations capture.
We further provide mathematical intuitions of the computed gradients in a
linear setting, and demonstrate the effectiveness of our approach through a
variety of experiments.
- Abstract(参考訳): マルチモーダル学習は、ダウンストリームタスクのパフォーマンスを改善するために、大きなモデルを学習し、異なるモダリティから特徴表現を融合することに集中している。
本稿では,この傾向から遠ざかって,マルチモーダルデータの本質的性質について,次のような質問をする。
1)汎用マルチモーダルデータのより構造化された潜在表現を学べるか?
;そして
2) 数学的にも視覚的にも直感的に理解できますか。
1)に答えるために,相関最大化と最小化(mucmm)によるマルチモーダル理解という汎用的で軽量なフレームワークを提案する。
MUCMMは共通表現と個別表現の両方を学ぶ。
共通表現はモダリティの間に共通するものをキャプチャし、個々の表現はモダリティのユニークな側面をキャプチャする。
そこで本研究では,学習した共通構造と個々の構造を要約した新たなスコアを提案し,各表現を視覚的に把握し,入力に関するスコア勾配を可視化する。
さらに,線形設定で計算された勾配の数学的直観性を提供し,様々な実験によるアプローチの有効性を実証する。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Constrained Multiview Representation for Self-supervised Contrastive
Learning [4.817827522417457]
本稿では、異なる視点の重要度を測定するために、表現距離に基づく相互情報(MI)に基づく新しいアプローチを提案する。
周波数領域から抽出した多視点表現を利用して、相互情報に基づいてそれらの意義を再評価する。
論文 参考訳(メタデータ) (2024-02-05T19:09:33Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Decoupling Common and Unique Representations for Multimodal Self-supervised Learning [22.12729786091061]
マルチモーダルな自己教師型学習のための簡易かつ効果的な方法として,Decoupling Common and Unique Representations (DeCUR)を提案する。
マルチモーダル冗長性低減によるモーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合できる。
論文 参考訳(メタデータ) (2023-09-11T08:35:23Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。