論文の概要: Aligning Multimodal Representations through an Information Bottleneck
- arxiv url: http://arxiv.org/abs/2506.04870v1
- Date: Thu, 05 Jun 2025 10:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.666226
- Title: Aligning Multimodal Representations through an Information Bottleneck
- Title(参考訳): インフォメーション・ボトルネックによるマルチモーダル表現の調整
- Authors: Antonio Almudévar, José Miguel Hernández-Lobato, Sameer Khurana, Ricard Marxer, Alfonso Ortega,
- Abstract要約: コントラッシブ・ロスの使用は、整列表現空間を学ぶのに有効ではないと論じる。
最も広く使われている対照的な損失のいくつかは、両モダリティの表現間の相互情報の最大化であるが、モダリティ固有の情報を削除するように設計されていない。
本稿では,変分近似により導出される損失関数の正規化項を提案し,表現アライメントの向上を目指す。
- 参考スコア(独自算出の注目度): 29.996417853496496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive losses have been extensively used as a tool for multimodal representation learning. However, it has been empirically observed that their use is not effective to learn an aligned representation space. In this paper, we argue that this phenomenon is caused by the presence of modality-specific information in the representation space. Although some of the most widely used contrastive losses maximize the mutual information between representations of both modalities, they are not designed to remove the modality-specific information. We give a theoretical description of this problem through the lens of the Information Bottleneck Principle. We also empirically analyze how different hyperparameters affect the emergence of this phenomenon in a controlled experimental setup. Finally, we propose a regularization term in the loss function that is derived by means of a variational approximation and aims to increase the representational alignment. We analyze in a set of controlled experiments and real-world applications the advantages of including this regularization term.
- Abstract(参考訳): コントラスト損失は多モーダル表現学習のツールとして広く利用されている。
しかし、それらの使用は整列表現空間を学ぶのに有効ではないことが実証的に観察されている。
本稿では,この現象は表現空間におけるモダリティ固有情報の存在によって引き起こされると論じる。
最も広く使われている対照的な損失のいくつかは、両モダリティの表現間の相互情報の最大化であるが、モダリティ固有の情報を削除するように設計されていない。
本稿では,この問題をインフォメーション・ボトルネック原理のレンズを通して理論的に記述する。
また、制御された実験装置において、異なるハイパーパラメータが、この現象の出現にどのように影響するかを経験的に分析する。
最後に、変分近似により導出される損失関数の正規化項を提案し、表現アライメントを高めることを目的とする。
この正規化項を組み込むことの利点を、制御された実験と実世界の応用のセットで分析する。
関連論文リスト
- Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - On the Value of Cross-Modal Misalignment in Multimodal Representation Learning [37.29274397631946]
マルチモーダル表現学習は、モダリティ間でキューを整列させることにより、強力な表現を学習することを目的としている。
最近の研究により、現実世界のデータセットは、しばしばモダクティブなミスアライメントを示すことが明らかになっている。
論文 参考訳(メタデータ) (2025-04-14T11:54:19Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Leveraging Relational Information for Learning Weakly Disentangled
Representations [11.460692362624533]
絡み合いは神経表現を強制するのは難しい性質である。
我々は、(弱々しい)非絡み合い表現の学習に関する別の見解を示す。
論文 参考訳(メタデータ) (2022-05-20T09:58:51Z) - Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。
この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文 参考訳(メタデータ) (2022-02-17T00:38:35Z) - Fundamental Limits and Tradeoffs in Invariant Representation Learning [99.2368462915979]
多くの機械学習アプリケーションは、2つの競合する目標を達成する表現を学習する。
ミニマックスゲーム理論の定式化は、精度と不変性の基本的なトレードオフを表す。
分類と回帰の双方において,この一般的かつ重要な問題を情報論的に解析する。
論文 参考訳(メタデータ) (2020-12-19T15:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。