論文の概要: Dual-Stream Cross-Modal Representation Learning via Residual Semantic Decorrelation
- arxiv url: http://arxiv.org/abs/2512.07568v1
- Date: Mon, 08 Dec 2025 14:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.913715
- Title: Dual-Stream Cross-Modal Representation Learning via Residual Semantic Decorrelation
- Title(参考訳): Residual Semantic Deorrelationによるデュアルストリーム・クロスモーダル表現学習
- Authors: Xuecheng Li, Weikuan Jia, Alisher Kurbonaliev, Qurbonaliev Alisher, Khudzhamkulov Rustam, Ismoilov Shuhratjon, Eshmatov Javhariddin, Yuanjie Zheng,
- Abstract要約: クロスモーダル表現は、しばしばモダリティ支配、冗長な情報結合、急激なクロスモーダル相関に悩まされる。
本稿では,Dual-Stream Residual Semantic Deorrelation Network (DSRSD-Net)を提案する。
- 参考スコア(独自算出の注目度): 5.272868130772015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal learning has become a fundamental paradigm for integrating heterogeneous information sources such as images, text, and structured attributes. However, multimodal representations often suffer from modality dominance, redundant information coupling, and spurious cross-modal correlations, leading to suboptimal generalization and limited interpretability. In particular, high-variance modalities tend to overshadow weaker but semantically important signals, while naïve fusion strategies entangle modality-shared and modality-specific factors in an uncontrolled manner. This makes it difficult to understand which modality actually drives a prediction and to maintain robustness when some modalities are noisy or missing. To address these challenges, we propose a Dual-Stream Residual Semantic Decorrelation Network (DSRSD-Net), a simple yet effective framework that disentangles modality-specific and modality-shared information through residual decomposition and explicit semantic decorrelation constraints. DSRSD-Net introduces: (1) a dual-stream representation learning module that separates intra-modal (private) and inter-modal (shared) latent factors via residual projection; (2) a residual semantic alignment head that maps shared factors from different modalities into a common space using a combination of contrastive and regression-style objectives; and (3) a decorrelation and orthogonality loss that regularizes the covariance structure of the shared space while enforcing orthogonality between shared and private streams, thereby suppressing cross-modal redundancy and preventing feature collapse. Experimental results on two large-scale educational benchmarks demonstrate that DSRSD-Net consistently improves next-step prediction and final outcome prediction over strong single-modality, early-fusion, late-fusion, and co-attention baselines.
- Abstract(参考訳): クロスモーダル学習は、画像、テキスト、構造化属性などの異種情報ソースを統合するための基本パラダイムとなっている。
しかし、マルチモーダル表現は、しばしばモダリティの優位性、冗長な情報結合、急激な相互モーダル相関に悩まされ、準最適一般化と限定的な解釈可能性をもたらす。
特に、高分散モダリティはより弱いが意味的に重要なシグナルを覆い隠す傾向にあり、ナイーブ融合戦略は、制御されていない方法でモダリティとモダリティ固有の要因を絡み合わせる。
これにより、どのモダリティが実際に予測を駆動しているかを理解することが難しくなり、いくつかのモダリティがノイズまたは欠落している場合、ロバスト性を維持することが困難になる。
これらの課題に対処するために, 残差分解と明示的セマンティックデコリレーション制約を通したモダリティ固有およびモダリティ共有情報を切り離す, シンプルかつ効果的なフレームワークであるDual-Stream Residual Semantic Deorrelation Network (DSRSD-Net)を提案する。
DSRSD-Netは,(1)モーダル内(私的)とモード間(共有的)の潜在因子を残留射影によって分離するデュアルストリーム表現学習モジュール,(2)異なるモーダルからの因子をコントラスト的および回帰的目的と組み合わせて共通空間にマッピングする残差セマンティックアライメントヘッド,(3)共有ストリームとプライベートストリームの直交性を保ちながら共有空間の共分散構造を規則化するデコリレーションと直交性損失,および特徴の崩壊を抑制する。
2つの大規模教育ベンチマーク実験の結果、DSRSD-Netは、強い単一モダリティ、早期核融合、後期核融合、コアテンションベースラインに対する次のステップ予測と最終結果予測を一貫して改善することを示した。
関連論文リスト
- Adaptive Redundancy Regulation for Balanced Multimodal Information Refinement [49.596978957463385]
支配的モダリティの長期支配は、表現と出力の結合を弱める。
従来の手法はしばしば、有利なモジュラリティの勾配を直接的に均一に調整する。
バランスの取れたマルチモーダル情報リファインメントに対する適応冗長性制御を提案する。
論文 参考訳(メタデータ) (2025-11-14T04:44:34Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。
既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。
本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文 参考訳(メタデータ) (2025-06-16T03:08:29Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。