論文の概要: Modality Dominance-Aware Optimization for Embodied RGB-Infrared Perception
- arxiv url: http://arxiv.org/abs/2601.00598v1
- Date: Fri, 02 Jan 2026 07:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.539494
- Title: Modality Dominance-Aware Optimization for Embodied RGB-Infrared Perception
- Title(参考訳): 身体的RGB-赤外線知覚のためのモーダリティドミナンス-アウェア最適化
- Authors: Xianhui Liu, Siqi Jiang, Yi Xie, Yuqing Lin, Siao Liu,
- Abstract要約: 本稿では,特徴量のエントロピーとコントリビューションを共同でモデル化し,モダリティ支配度を測定するモダリティ支配指数(MDI)を提案する。
MDIに基づき,モーダリティ・ドミナンス・アウェア・クロスモーダル・ラーニング・フレームワークを開発し,モーダリティ・ドミナンス・アウェア・クロスモーダル・ラーニングの最適化を規定する。
- 参考スコア(独自算出の注目度): 9.187239960659928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-Infrared (RGB-IR) multimodal perception is fundamental to embodied multimedia systems operating in complex physical environments. Although recent cross-modal fusion methods have advanced RGB-IR detection, the optimization dynamics caused by asymmetric modality characteristics remain underexplored. In practice, disparities in information density and feature quality introduce persistent optimization bias, leading training to overemphasize a dominant modality and hindering effective fusion. To quantify this phenomenon, we propose the Modality Dominance Index (MDI), which measures modality dominance by jointly modeling feature entropy and gradient contribution. Based on MDI, we develop a Modality Dominance-Aware Cross-modal Learning (MDACL) framework that regulates cross-modal optimization. MDACL incorporates Hierarchical Cross-modal Guidance (HCG) to enhance feature alignment and Adversarial Equilibrium Regularization (AER) to balance optimization dynamics during fusion. Extensive experiments on three RGB-IR benchmarks demonstrate that MDACL effectively mitigates optimization bias and achieves SOTA performance.
- Abstract(参考訳): RGB-赤外線(RGB-IR)のマルチモーダル認識は、複雑な物理環境で動作するマルチメディアシステムに基本となる。
近年のクロスモーダル融合法はRGB-IRの検出が進んでいるが、非対称なモード性特性による最適化のダイナミクスはいまだ未解明のままである。
実際には、情報密度と特徴品質の格差は永続的な最適化バイアスをもたらし、トレーニングは支配的なモダリティを過度に強調し、効果的な融合を妨げる。
この現象を定量化するために,特徴量エントロピーと勾配寄与を共同でモデル化し,モダリティ支配度を測定するモダリティ支配度指数(MDI)を提案する。
MDIに基づいて,モーダリティ・ドミナンス・アウェア・クロスモーダル・ラーニング(MDACL)フレームワークを開発した。
MDACLは階層的クロスモーダルガイダンス(HCG)を導入し、特徴アライメントを強化し、AER(Adversarial Equilibrium Regularization)は融合時の最適化ダイナミクスのバランスをとる。
3つのRGB-IRベンチマークにおいて、MDACLは最適化バイアスを効果的に軽減し、SOTA性能を達成することを示した。
関連論文リスト
- Optimizing the Adversarial Perturbation with a Momentum-based Adaptive Matrix [13.862664606369014]
本稿では, 運動量に基づく新しい攻撃AdaMIを提案し, 摂動を興味深い運動量に基づく適応行列で最適化する。
AdaMIは凸問題に対する最適収束を証明し、MI-FGSMの非収束問題に対処していることを示す。
論文 参考訳(メタデータ) (2025-12-16T08:35:18Z) - Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization [72.83292830785336]
ウェイト平均化 (WA) は, 平坦な損失景観への収束を促進することによって, 一般化を促進する強力な手法として登場した。
マルチモーダル環境での欠点を克服しつつ,WAの平坦性に起因した優位性を保ちつつ,統一的な共同蒸留フレームワークMBCDを提案する。
論文 参考訳(メタデータ) (2025-11-25T12:38:28Z) - Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation [41.00894254469267]
textbfRepBlendという新しいMDDフレームワークを導入し,表現ブレンディングによるモダル間監督を弱める。
Flickr-30K と MS-COCO の実験では、RepBlend は最先端のMDD メソッドよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-16T03:00:56Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Modality-Adaptive Mixup and Invariant Decomposition for RGB-Infrared
Person Re-Identification [84.32086702849338]
RGB-赤外線人物再同定のための新しいモダリティ適応混合・不変分解(MID)手法を提案する。
MIDは、RGBと赤外線画像の混合画像を生成するためのモダリティ適応混合方式を設計する。
2つの挑戦的なベンチマーク実験は、最先端の手法よりもMIDの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-03T14:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。