論文の概要: Countering Multi-modal Representation Collapse through Rank-targeted Fusion
- arxiv url: http://arxiv.org/abs/2511.06450v1
- Date: Sun, 09 Nov 2025 16:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.954489
- Title: Countering Multi-modal Representation Collapse through Rank-targeted Fusion
- Title(参考訳): ランク目標核融合によるマルチモーダル表現の崩壊
- Authors: Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib,
- Abstract要約: 多モード融合法は、しばしば2種類の表現崩壊(特徴崩壊とモダリティ崩壊)に悩まされる。
本稿では,あるモダリティと他のモダリティの相補的特徴とを選択的にブレンドする,理論的に基礎付けられた融合フレームワークを提案する。
我々の手法は、最先端の手法を最大3.74%上回っている。
- 参考スコア(独自算出の注目度): 13.12918046927018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal fusion methods often suffer from two types of representation collapse: feature collapse where individual dimensions lose their discriminative power (as measured by eigenspectra), and modality collapse where one dominant modality overwhelms the other. Applications like human action anticipation that require fusing multifarious sensor data are hindered by both feature and modality collapse. However, existing methods attempt to counter feature collapse and modality collapse separately. This is because there is no unifying framework that efficiently addresses feature and modality collapse in conjunction. In this paper, we posit the utility of effective rank as an informative measure that can be utilized to quantify and counter both the representation collapses. We propose \textit{Rank-enhancing Token Fuser}, a theoretically grounded fusion framework that selectively blends less informative features from one modality with complementary features from another modality. We show that our method increases the effective rank of the fused representation. To address modality collapse, we evaluate modality combinations that mutually increase each others' effective rank. We show that depth maintains representational balance when fused with RGB, avoiding modality collapse. We validate our method on action anticipation, where we present \texttt{R3D}, a depth-informed fusion framework. Extensive experiments on NTURGBD, UTKinect, and DARai demonstrate that our approach significantly outperforms prior state-of-the-art methods by up to 3.74\%. Our code is available at: \href{https://github.com/olivesgatech/R3D}{https://github.com/olivesgatech/R3D}.
- Abstract(参考訳): 多モード融合法は、個々の次元が識別力を失う特徴崩壊(固有スペクトルによって測定される)と、一方が支配的なモダリティが他方を圧倒するモダリティ崩壊(英語版)という2つのタイプの表現崩壊にしばしば悩まされる。
マルチファーラスセンサーデータを融合させるヒューマンアクション予測のような応用は、特徴とモダリティの崩壊によって妨げられる。
しかし、既存の手法では、特徴の崩壊とモダリティの崩壊を別々に対処しようと試みている。
これは、機能とモダリティの崩壊を協調して効果的に対処する統一フレームワークがないためです。
本稿では,両表現の崩壊の定量化と対策に活用できる情報尺度として,有効ランクの有用性を仮定する。
理論的に基礎を成す融合フレームワークである「textit{Rank-enhancing Token Fuser}」を提案する。
本手法は, 融合表現の有効ランクを増加させることを示す。
本研究は,モダリティの崩壊に対処するため,互いの有効ランクを相互に増加させるモダリティの組み合わせを評価する。
我々は,RGBと融合した場合,奥行きは表現バランスを保ち,モダリティの崩壊を回避していることを示す。
そこで我々は,深度インフォームド・フュージョン・フレームワークであるtexttt{R3D} を提示する。
NTURGBD, UTKinect, DARaiの大規模実験により, 従来の最先端手法よりも最大3.74倍高い性能を示した。
私たちのコードは以下の通りである。 \href{https://github.com/olivesgatech/R3D}{https://github.com/olivesgatech/R3D}。
関連論文リスト
- Splat Feature Solver [2.385329252971734]
本稿では,特徴持ち上げ問題のカーネルおよび特徴に依存しない定式化を,スパース線形逆問題として提示する。
解の安定化と意味的忠実度向上のための2つの相補的正則化戦略を導入する。
提案手法は,オープンボキャブラリ3次元セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-17T03:13:06Z) - A Closer Look at Multimodal Representation Collapse [12.399005128036746]
モーダリティの崩壊は、あるモーダリティからのノイズが、融合ヘッド内のニューロンの共有セットを介して、他のモーダリティからの予測的特徴によって絡み合っているときに起こることを示す。
本稿では,モダリティの欠如に対処する手法として,モダリティの崩壊を防止するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-28T15:31:53Z) - DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing [58.62312400472865]
マルチモーダル・フェイス・アンチ・スプーフィング (FAS) が顕著な研究対象となっている。
相互情報に基づくモダリティ間のアライメントモジュールを提案する。
サブドメイン超平面とモダリティ角マージンの両方を整列する双対アライメント最適化法を用いる。
論文 参考訳(メタデータ) (2025-03-01T10:12:00Z) - Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks [13.742299383836256]
本稿では,各種類のデータを完全に活用する,EAEF (Explicit Attention-Enhanced Fusion) という新しい融合法を提案する。
提案手法は,セマンティックセグメンテーションにおけるmIoUが1.6%,サリアントオブジェクト検出におけるMAEが3.1%,オブジェクト検出におけるmAPが2.3%,クラウドカウントにおけるMAEが8.1%,最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-03-28T03:37:27Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - SFusion: Self-attention based N-to-One Multimodal Fusion Block [6.059397373352718]
本稿では,SFusionと呼ばれる自己注意型核融合ブロックを提案する。
使用可能なモダリティを、合成やゼロパディングの欠如なしに融合することを学ぶ。
本研究では,SFusionを異なるバックボーンネットワークに適用し,ヒトの活動認識と脳腫瘍のセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-08-26T16:42:14Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。
ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。
本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文 参考訳(メタデータ) (2020-09-02T12:54:13Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。