論文の概要: CyIN: Cyclic Informative Latent Space for Bridging Complete and Incomplete Multimodal Learning
- arxiv url: http://arxiv.org/abs/2602.04920v1
- Date: Wed, 04 Feb 2026 07:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.54279
- Title: CyIN: Cyclic Informative Latent Space for Bridging Complete and Incomplete Multimodal Learning
- Title(参考訳): CyIN: 完全かつ不完全なマルチモーダル学習のための周期的不変遅延空間
- Authors: Ronghao Lin, Qiaolin He, Sijie Mai, Ying Zeng, Aolin Xiong, Li Huang, Yap-Peng Tan, Haifeng Hu,
- Abstract要約: 本稿では,完全学習と不完全学習のギャップを埋めるために,Cyclic Informative Learning framework(CyIN)を提案する。
不完全なマルチモーダル入力による欠落情報を補うために,クロスモーダル巡回変換を提案する。
CyINは1つの統一モデルで完全および不完全マルチモーダル学習を共同最適化することに成功した。
- 参考スコア(独自算出の注目度): 35.562458985015944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal machine learning, mimicking the human brain's ability to integrate various modalities has seen rapid growth. Most previous multimodal models are trained on perfectly paired multimodal input to reach optimal performance. In real-world deployments, however, the presence of modality is highly variable and unpredictable, causing the pre-trained models in suffering significant performance drops and fail to remain robust with dynamic missing modalities circumstances. In this paper, we present a novel Cyclic INformative Learning framework (CyIN) to bridge the gap between complete and incomplete multimodal learning. Specifically, we firstly build an informative latent space by adopting token- and label-level Information Bottleneck (IB) cyclically among various modalities. Capturing task-related features with variational approximation, the informative bottleneck latents are purified for more efficient cross-modal interaction and multimodal fusion. Moreover, to supplement the missing information caused by incomplete multimodal input, we propose cross-modal cyclic translation by reconstruct the missing modalities with the remained ones through forward and reverse propagation process. With the help of the extracted and reconstructed informative latents, CyIN succeeds in jointly optimizing complete and incomplete multimodal learning in one unified model. Extensive experiments on 4 multimodal datasets demonstrate the superior performance of our method in both complete and diverse incomplete scenarios.
- Abstract(参考訳): 様々なモダリティを統合する人間の脳の能力を模倣したマルチモーダル機械学習は急速に成長した。
これまでのほとんどのマルチモーダルモデルは、最適な性能を得るために完全にペア化されたマルチモーダル入力で訓練されている。
しかし、実世界の展開では、モダリティの存在は高度に変動し予測不可能であり、事前訓練されたモデルが大きな性能低下を経験し、動的に欠落したモダリティの状況で頑健に保たない。
本稿では,完全学習と不完全なマルチモーダル学習のギャップを埋めるために,Cyncic Informative Learning framework(CyIN)を提案する。
具体的には、まずトークンレベルおよびラベルレベルの情報ボトルネック(IB)を様々なモードで循環的に適用することにより、情報伝達の潜伏空間を構築する。
タスク関連の特徴を変動近似で捉えることで、より効率的なクロスモーダル相互作用とマルチモーダル融合のために、情報的ボトルネック潜伏剤を精製する。
さらに,不完全なマルチモーダル入力による欠落情報を補足するために,前方・逆伝播過程を通じて残余のモーダルを復元し,クロスモーダル・サイクリック変換を提案する。
抽出および再構成された情報伝達潜水剤の助けを借りて、CyINは1つの統一モデルで完全および不完全なマルチモーダル学習を共同で最適化することに成功した。
4つのマルチモーダルデータセットに対する大規模な実験は、完全かつ多様な不完全なシナリオにおいて、我々の手法の優れた性能を示す。
関連論文リスト
- Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。