論文の概要: Generative Modeling of Class Probability for Multi-Modal Representation Learning
- arxiv url: http://arxiv.org/abs/2503.17417v1
- Date: Fri, 21 Mar 2025 01:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:24.351411
- Title: Generative Modeling of Class Probability for Multi-Modal Representation Learning
- Title(参考訳): マルチモーダル表現学習のためのクラス確率生成モデル
- Authors: Jungkyoo Shin, Bumsoo Kim, Eunwoo Kim,
- Abstract要約: マルチモーダル理解は、モデルが異なるモーダルから入力を共同で解釈できるようにすることによって、人工知能において重要な役割を担っている。
マルチモーダル表現学習にクラス確率分布を利用する新しいクラスアンカーアライメント手法を提案する。
本手法は,クラスアンカーを各モードのクラス確率分布の生成と調整のプロンプトとして符号化する。
- 参考スコア(独自算出の注目度): 7.5696616045063845
- License:
- Abstract: Multi-modal understanding plays a crucial role in artificial intelligence by enabling models to jointly interpret inputs from different modalities. However, conventional approaches such as contrastive learning often struggle with modality discrepancies, leading to potential misalignments. In this paper, we propose a novel class anchor alignment approach that leverages class probability distributions for multi-modal representation learning. Our method, Class-anchor-ALigned generative Modeling (CALM), encodes class anchors as prompts to generate and align class probability distributions for each modality, enabling more effective alignment. Furthermore, we introduce a cross-modal probabilistic variational autoencoder to model uncertainty in the alignment, enhancing the ability to capture deeper relationships between modalities and data variations. Extensive experiments on four benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, especially in out-of-domain evaluations. This highlights its superior generalization capabilities in multi-modal representation learning.
- Abstract(参考訳): マルチモーダル理解は、モデルが異なるモーダルから入力を共同で解釈できるようにすることによって、人工知能において重要な役割を担っている。
しかし、対照的な学習のような従来のアプローチは、しばしばモダリティの相違に悩まされ、潜在的なミスアライメントに繋がる。
本稿では,マルチモーダル表現学習におけるクラス確率分布を利用した新しいクラスアンカーアライメント手法を提案する。
本手法は,クラスアンカーを各モードのクラス確率分布の生成とアライメントのプロンプトとして符号化し,より効果的なアライメントを実現する。
さらに、アライメントにおける不確実性をモデル化し、モダリティとデータ変動との深い関係を捉える能力を高めるために、クロスモーダル確率変動オートエンコーダを導入する。
4つのベンチマークデータセットに対する大規模な実験により、我々のアプローチは最先端の手法、特にドメイン外評価において著しく優れていることが示された。
これはマルチモーダル表現学習における優れた一般化能力を強調している。
関連論文リスト
- Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。
既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。
独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T14:16:44Z) - Multimodal Adversarially Learned Inference with Factorized
Discriminators [10.818838437018682]
本稿では,生成逆ネットワークに基づくマルチモーダルデータの生成モデリングのための新しい手法を提案する。
コヒーレントなマルチモーダル生成モデルを学習するためには、異なるエンコーダ分布とジョイントデコーダ分布を同時に整合させることが必要であることを示す。
判別器を分解することで、対照的な学習を生かし、単調なデータに基づいてモデルを訓練する。
論文 参考訳(メタデータ) (2021-12-20T08:18:49Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - MHVAE: a Human-Inspired Deep Hierarchical Generative Model for
Multimodal Representation Learning [8.70928211339504]
表現学習のための階層型マルチモーダル生成モデルであるMHVAE(Multimodal Hierarchical Vari Auto-Encoder)をコントリビュートする。
人間の認知モデルにインスパイアされたMHVAEは、モダリティ固有の分布と、モダリティ間の推論に責任を持つ共同モダリティ分布を学習することができる。
本モデルは,任意の入力モダリティと相互モダリティ推定による共同モダリティ再構成に関する他の最先端生成モデルと同等に機能する。
論文 参考訳(メタデータ) (2020-06-04T16:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。