論文の概要: InfMasking: Unleashing Synergistic Information by Contrastive Multimodal Interactions
- arxiv url: http://arxiv.org/abs/2509.25270v1
- Date: Sun, 28 Sep 2025 09:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.222474
- Title: InfMasking: Unleashing Synergistic Information by Contrastive Multimodal Interactions
- Title(参考訳): InfMasking: 対照的なマルチモーダルインタラクションによる相乗的情報公開
- Authors: Liangjian Wen, Qun Dai, Jianzhuang Liu, Jiangtao Zheng, Yong Dai, Dongkai Wang, Zhao Kang, Jun Wang, Zenglin Xu, Jiang Duan,
- Abstract要約: マルチモーダル表現学習において、モダリティ間の相乗的相互作用は相補的な情報を提供し、ユニークな結果を生み出す。
既存の手法は、シナジスティックな情報の完全なスペクトルを捉えるのに苦労し、そのような相互作用が重要となるタスクにおいて、最適以下のパフォーマンスをもたらす。
我々は、textbfInfinite textbfMasking戦略を通じて、相乗的情報を強化するために設計された対照的な相乗的情報抽出手法であるInfMaskingを紹介する。
大規模な実世界のデータセットの評価において、InfMaskingは7つのベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 66.45467539731288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multimodal representation learning, synergistic interactions between modalities not only provide complementary information but also create unique outcomes through specific interaction patterns that no single modality could achieve alone. Existing methods may struggle to effectively capture the full spectrum of synergistic information, leading to suboptimal performance in tasks where such interactions are critical. This is particularly problematic because synergistic information constitutes the fundamental value proposition of multimodal representation. To address this challenge, we introduce InfMasking, a contrastive synergistic information extraction method designed to enhance synergistic information through an \textbf{Inf}inite \textbf{Masking} strategy. InfMasking stochastically occludes most features from each modality during fusion, preserving only partial information to create representations with varied synergistic patterns. Unmasked fused representations are then aligned with masked ones through mutual information maximization to encode comprehensive synergistic information. This infinite masking strategy enables capturing richer interactions by exposing the model to diverse partial modality combinations during training. As computing mutual information estimates with infinite masking is computationally prohibitive, we derive an InfMasking loss to approximate this calculation. Through controlled experiments, we demonstrate that InfMasking effectively enhances synergistic information between modalities. In evaluations on large-scale real-world datasets, InfMasking achieves state-of-the-art performance across seven benchmarks. Code is released at https://github.com/brightest66/InfMasking.
- Abstract(参考訳): マルチモーダル表現学習において、モダリティ間の相乗的相互作用は相補的な情報を提供するだけでなく、単一のモダリティが単独では達成できない特定の相互作用パターンを通じて独自の結果を生み出す。
既存の手法は、シナジスティックな情報の完全なスペクトルを効果的に捉えるのに苦労し、そのような相互作用が重要となるタスクにおいて、最適以下のパフォーマンスをもたらす。
これは、相乗的情報がマルチモーダル表現の基本的な価値命題を構成するため、特に問題となる。
InfMaskingは, テキストbf{Inf}inite \textbf{Masking} 戦略を用いて, 相乗的情報を強化するために設計された, 対照的な相乗的情報抽出手法である。
InfMaskingは、融合中に各モダリティからほとんどの特徴を確率的に排除し、部分的な情報のみを保持して、様々な相乗的パターンを持つ表現を生成する。
マスクのない融合表現は、相互情報の最大化を通じてマスクされた表現と整列し、包括的な相乗的情報を符号化する。
この無限マスキング戦略は、トレーニング中にモデルを様々な部分的モダリティの組み合わせに露出させることで、よりリッチな相互作用をキャプチャすることを可能にする。
無限マスキングによる相互情報推定の計算は計算が禁じられているため、この計算を近似するためにInfMasking損失を導出する。
制御実験により,InfMaskingはモダリティ間の相乗的情報を効果的に強化することを示した。
大規模な実世界のデータセットの評価において、InfMaskingは7つのベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/brightest66/InfMasking.comで公開されている。
関連論文リスト
- Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation [19.01114538768217]
我々は,textbfRtextbfEfining multi-modtextbfAl conttextbfRastive learning and hotextbfMography relationsを提案する。
実世界の3つのデータセットに対する実験は、REARMの様々な最先端ベースラインに対する優位性を実証している。
論文 参考訳(メタデータ) (2025-08-19T11:35:48Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Beyond Random Missingness: Clinically Rethinking for Healthcare Time Series Imputation [7.21960656196858]
本研究では,医療環境におけるマスキング戦略が時系列計算モデルに及ぼす影響について検討した。
PhysioNet Challenge 2012データセットを使用して、異なるマスキング実装が、計算精度と下流臨床予測の両方にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-05-26T18:05:12Z) - Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.85691124169784]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文 参考訳(メタデータ) (2024-03-08T13:29:46Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Contextual Fusion For Adversarial Robustness [0.0]
ディープニューラルネットワークは、通常、1つの特定の情報ストリームを処理し、様々な種類の敵の摂動に影響を受けやすいように設計されている。
そこで我々はPlaces-CNNとImagenet-CNNから並列に抽出した背景特徴と前景特徴を組み合わせた融合モデルを開発した。
グラデーションをベースとした攻撃では,フュージョンは乱れのないデータの性能を低下させることなく,分類の大幅な改善を可能にする。
論文 参考訳(メタデータ) (2020-11-18T20:13:23Z) - Panoptic Feature Fusion Net: A Novel Instance Segmentation Paradigm for
Biomedical and Biological Images [91.41909587856104]
本稿では,本研究における意味的特徴とインスタンス的特徴を統一するPanoptic Feature Fusion Net(PFFNet)を提案する。
提案するPFFNetには,インスタンス予測を意味的特徴に組み込むための残注意特徴融合機構が組み込まれている。
様々なバイオメディカルおよび生物学的データセットにおいて、最先端のいくつかの手法を上回ります。
論文 参考訳(メタデータ) (2020-02-15T09:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。