論文の概要: Learning Optimal Multimodal Information Bottleneck Representations
- arxiv url: http://arxiv.org/abs/2505.19996v1
- Date: Mon, 26 May 2025 13:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.479156
- Title: Learning Optimal Multimodal Information Bottleneck Representations
- Title(参考訳): 最適マルチモーダル情報ボトルネック表現の学習
- Authors: Qilong Wu, Yiyang Shao, Jun Wang, Xiaobo Sun,
- Abstract要約: 我々は,新しいマルチモーダル学習フレームワーク,Optimal Multimodal Information Bottleneck (OMIB)を提案する。
OMIBは理論上導かれた境界内に正規化重みを設定することにより最適MIBの達成性を保証する。
我々はOMIBの合成データに対する理論的特性を実証的に検証し、様々な下流タスクにおける最先端ベンチマーク手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.823241063353844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging high-quality joint representations from multimodal data can greatly enhance model performance in various machine-learning based applications. Recent multimodal learning methods, based on the multimodal information bottleneck (MIB) principle, aim to generate optimal MIB with maximal task-relevant information and minimal superfluous information via regularization. However, these methods often set ad hoc regularization weights and overlook imbalanced task-relevant information across modalities, limiting their ability to achieve optimal MIB. To address this gap, we propose a novel multimodal learning framework, Optimal Multimodal Information Bottleneck (OMIB), whose optimization objective guarantees the achievability of optimal MIB by setting the regularization weight within a theoretically derived bound. OMIB further addresses imbalanced task-relevant information by dynamically adjusting regularization weights per modality, promoting the inclusion of all task-relevant information. Moreover, we establish a solid information-theoretical foundation for OMIB's optimization and implement it under the variational approximation framework for computational efficiency. Finally, we empirically validate the OMIB's theoretical properties on synthetic data and demonstrate its superiority over the state-of-the-art benchmark methods in various downstream tasks.
- Abstract(参考訳): マルチモーダルデータから高品質な関節表現を活用することで、さまざまな機械学習ベースのアプリケーションにおけるモデル性能を大幅に向上させることができる。
マルチモーダル情報ボトルネック(MIB)の原理に基づく近年のマルチモーダル学習手法は,タスク関連情報の最大化と,正規化による超流動情報の最小化による最適MIBの生成を目指している。
しかしながら、これらの手法は、しばしばアドホックな正規化重みを設定し、不均衡なタスク関連情報をモダリティにわたって見落とし、最適なMIBを達成する能力を制限する。
このギャップに対処するために,理論的に導出された境界内に正規化重みを設定することにより,最適MIBの実現性を保証する,新しいマルチモーダル学習フレームワーク,Optimal Multimodal Information Bottleneck(OMIB)を提案する。
OMIBはさらに、モダリティごとの正規化重みを動的に調整し、すべてのタスク関連情報の包含を促進することで、不均衡なタスク関連情報に対処する。
さらに、OMIBの最適化のための情報理論の基礎を確立し、計算効率の変動近似フレームワークを用いて実装する。
最後に、OMIBの合成データに対する理論的特性を実証的に検証し、様々な下流タスクにおける最先端ベンチマーク手法よりも優れていることを示す。
関連論文リスト
- Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.452011929848844]
本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。
問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。
我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文 参考訳(メタデータ) (2025-03-11T11:13:11Z) - MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment [7.109735168520378]
知識グラフの強化と質問応答システムの改善には,MMEA(Multi-modal entity alignment)が不可欠である。
既存の方法は、しばしばそれらの相補性を通じてモダリティを統合することにフォーカスするが、各モダリティの特異性を見落としている。
本稿では,モダリティの相補性と特異性の両方を革新的に統合するマルチモーダル一貫性・特異性融合フレームワーク(MCSFF)を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:35:25Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning [16.8379583872582]
我々は,情報ボトルネックの概念を利用する情報理論階層知覚(ITHP)モデルを開発した。
我々は、ITHPがマルチモーダル学習シナリオにおいて重要な情報を一貫して蒸留し、最先端のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T01:34:44Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Greedy Modality Selection via Approximate Submodular Maximization [19.22947539760366]
マルチモーダル学習は、異質な情報ソースを融合することを目的としたマルチモーダルデータからの学習を検討する。
メモリ制約のため、利用可能なすべてのモダリティを活用することが常に可能であるとは限らない。
本研究では,ある計算制約の下で最も情報的かつ補完的なモダリティを効率的に選択することを目的としたモダリティ選択について検討する。
論文 参考訳(メタデータ) (2022-10-22T22:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。