論文の概要: Adaptive Redundancy Regulation for Balanced Multimodal Information Refinement
- arxiv url: http://arxiv.org/abs/2511.13755v1
- Date: Fri, 14 Nov 2025 04:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.68032
- Title: Adaptive Redundancy Regulation for Balanced Multimodal Information Refinement
- Title(参考訳): バランスの取れたマルチモーダル情報リファインメントの適応冗長性制御
- Authors: Zhe Yang, Wenrui Li, Hongtao Chen, Penghong Wang, Ruiqin Xiong, Xiaopeng Fan,
- Abstract要約: 支配的モダリティの長期支配は、表現と出力の結合を弱める。
従来の手法はしばしば、有利なモジュラリティの勾配を直接的に均一に調整する。
バランスの取れたマルチモーダル情報リファインメントに対する適応冗長性制御を提案する。
- 参考スコア(独自算出の注目度): 49.596978957463385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning aims to improve performance by leveraging data from multiple sources. During joint multimodal training, due to modality bias, the advantaged modality often dominates backpropagation, leading to imbalanced optimization. Existing methods still face two problems: First, the long-term dominance of the dominant modality weakens representation-output coupling in the late stages of training, resulting in the accumulation of redundant information. Second, previous methods often directly and uniformly adjust the gradients of the advantaged modality, ignoring the semantics and directionality between modalities. To address these limitations, we propose Adaptive Redundancy Regulation for Balanced Multimodal Information Refinement (RedReg), which is inspired by information bottleneck principle. Specifically, we construct a redundancy phase monitor that uses a joint criterion of effective gain growth rate and redundancy to trigger intervention only when redundancy is high. Furthermore, we design a co-information gating mechanism to estimate the contribution of the current dominant modality based on cross-modal semantics. When the task primarily relies on a single modality, the suppression term is automatically disabled to preserve modality-specific information. Finally, we project the gradient of the dominant modality onto the orthogonal complement of the joint multimodal gradient subspace and suppress the gradient according to redundancy. Experiments show that our method demonstrates superiority among current major methods in most scenarios. Ablation experiments verify the effectiveness of our method. The code is available at https://github.com/xia-zhe/RedReg.git
- Abstract(参考訳): マルチモーダル学習は、複数のソースからのデータを活用することで、パフォーマンスを向上させることを目的としている。
共同マルチモーダルトレーニングにおいて、モダリティバイアスのため、有利なモダリティはしばしばバックプロパゲーションを支配し、不均衡な最適化をもたらす。
第一に、支配的なモダリティの長期的な支配は、訓練の後期における表現と出力の結合を弱め、冗長な情報の蓄積をもたらす。
第二に、従来の手法は、しばしば、有利なモダリティの勾配を直接的に均一に調整し、モダリティ間の意味や方向性を無視している。
これらの制約に対処するため、情報ボトルネックの原理にインスパイアされたAdaptive Redundancy Regulation for Balanced Multimodal Information Refinement (RedReg)を提案する。
具体的には、有効利得成長率と冗長性の合同基準を用いて、冗長度が高い場合にのみ介入をトリガーする冗長位相モニタを構築する。
さらに,クロスモーダルなセマンティクスに基づいて,現在の支配的モダリティの寄与を推定するための共情報ゲーティング機構を設計する。
タスクが主に単一のモダリティに依存している場合、抑制項はモダリティ固有の情報を保存するために自動的に無効になる。
最後に, 多重モード勾配部分空間の直交補空間への支配的モダリティの勾配を投影し, 冗長性による勾配の抑制を行う。
実験により,本手法はほとんどのシナリオにおいて,現在の主要な手法よりも優れていることが示された。
アブレーション実験により本手法の有効性が検証された。
コードはhttps://github.com/xia-zhe/RedReg.gitで公開されている。
関連論文リスト
- Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。
既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。
本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文 参考訳(メタデータ) (2025-06-16T03:08:29Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。