論文の概要: OVA-IB: One vs All Information Bottleneck for Multi-Modal Alignment
- arxiv url: http://arxiv.org/abs/2605.29900v1
- Date: Thu, 28 May 2026 13:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.33993
- Title: OVA-IB: One vs All Information Bottleneck for Multi-Modal Alignment
- Title(参考訳): OVA-IB:マルチモーダルアライメントのための1対全情報基盤
- Authors: Tianchao Li, Shujian Yu, Xinrui Zu, Zhaolong Wei, Jeremy Gummeson, Jack C. P. Cheng, Robert Jenssen,
- Abstract要約: コントラスト学習はペアビューやモダリティの整列に有効であるが、2つのモダリティを超えたアライメントは非自明なままである。
任意のモダリティアライメントのためのインフォメーション・ボトルネック・フレームワークであるOVA-IBを提案する。
- 参考スコア(独自算出の注目度): 31.43351753062205
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contrastive learning is effective for aligning paired views or modalities, but alignment beyond two modalities remains non-trivial and comparatively underexplored. Pairwise CLIP-style losses decompose multi-modal alignment into independent two-way comparisons and therefore do not explicitly model higher-order dependencies among multiple modalities. Recent beyond-pairwise objectives approach this problem from statistical or geometric perspectives, but arbitrary-modality alignment still lacks a principled criterion for defining what each modality should preserve and compress relative to the others. We revisit arbitrary-modality alignment through the Information Bottleneck principle. In multi-modal learning, sufficiency should preserve information predictable from the remaining modalities, while minimality should compress modality-specific information not supported by them. This naturally leads to a One-vs-All view, where each modality is characterized with respect to the remaining modalities. We propose OVA-IB, an Information Bottleneck framework for arbitrary-modality alignment. OVA-IB optimizes a tractable One-vs-All contrastive lower bound for sufficiency connected to a Dual Total Correlation-style objective, uses a parameter-free geometry-aware projection score, and derives a tractable upper-bound regularizer for minimality by bounding each representation's dependence on its own input with representation distributions induced by the remaining modalities. Experiments on classification, regression, modality-agnostic evaluation, and cross-modal retrieval benchmarks demonstrate strong and robust performance.
- Abstract(参考訳): コントラスト学習はペアビューやモダリティの整列に有効であるが、2つのモダリティを超えたアライメントは非自明であり、比較的未探索である。
ペアワイズCLIPスタイルの損失は、独立した双方向比較にマルチモーダルアライメントを分解するので、複数のモーダル間の高階依存を明示的にモデル化しない。
最近の外向きの目的は、統計的あるいは幾何学的な観点からこの問題にアプローチしているが、任意のモダリティアライメントは、各モダリティが他のものと相対的に保持し圧縮するべきものを定義するための原則的な基準を欠いている。
我々は、Information Bottleneckの原則により、任意のモダリティアライメントを再考する。
マルチモーダル学習では、十分性は残りのモダリティから予測可能な情報を保存し、最小性はモダリティ固有の情報を圧縮する必要がある。
これは自然に 1-vs-All の見方につながり、各モダリティは残りのモダリティに対して特徴づけられる。
任意のモダリティアライメントのためのインフォメーション・ボトルネック・フレームワークであるOVA-IBを提案する。
OVA-IB は、Dual Total correlation スタイルの目的に連結された飽和度に対するトラクタブルな 1-vs-All の対照的な下界を最適化し、パラメータフリーな幾何認識プロジェクションスコアを使用し、残りのモダリティによって誘導される表現分布に各表現の依存を限定することにより、最小限のトラクタブルな上界正規化器を導出する。
分類,回帰,モダリティに依存しない評価,およびクロスモーダル検索ベンチマークの実験は,強靭で堅牢な性能を示した。
関連論文リスト
- Robust low-rank estimation with multiple binary responses using pairwise AUC loss [0.0]
複数のバイナリ応答は、多くの現代のデータ分析問題に現れる。
低ランクモデルはタスク間の遅延依存をエンコードする自然な方法を提供する。
既存のバイナリデータの方法は概ね可能性ベースであり、ポイントワイズ分類に重点を置いている。
論文 参考訳(メタデータ) (2026-01-13T15:00:10Z) - Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View [35.389116270077324]
マルチモーダル融合は様々なモダリティの境界を突破し、既に顕著な性能を達成している。
多くの専門分野において、トレーニングに十分なアライメントデータを得るのに苦労している。
本稿では,CLIPに基づく新しい手法であるSet-CLIPを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:41:14Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。