論文の概要: CHARM: Collaborative Harmonization across Arbitrary Modalities for Modality-agnostic Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2508.03060v1
- Date: Tue, 05 Aug 2025 04:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.771266
- Title: CHARM: Collaborative Harmonization across Arbitrary Modalities for Modality-agnostic Semantic Segmentation
- Title(参考訳): CHARM:Modality-Agnostic Semantic Segmentationのための任意モーダル間の協調調和
- Authors: Lekang Wen, Jing Xiao, Liang Liao, Jiajun Chen, Mi Wang,
- Abstract要約: Modality-Agnostic Semantic (MaSS) は入力モダリティの任意の組み合わせにまたがる堅牢なシーン理解の実現を目的としている。
我々は、モダリティに特有な利点を保ちつつ、暗黙的にコンテンツをアライメントする新しい補完学習フレームワークであるCHARMを提案する。
- 参考スコア(独自算出の注目度): 44.48226146116737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modality-agnostic Semantic Segmentation (MaSS) aims to achieve robust scene understanding across arbitrary combinations of input modality. Existing methods typically rely on explicit feature alignment to achieve modal homogenization, which dilutes the distinctive strengths of each modality and destroys their inherent complementarity. To achieve cooperative harmonization rather than homogenization, we propose CHARM, a novel complementary learning framework designed to implicitly align content while preserving modality-specific advantages through two components: (1) Mutual Perception Unit (MPU), enabling implicit alignment through window-based cross-modal interaction, where modalities serve as both queries and contexts for each other to discover modality-interactive correspondences; (2) A dual-path optimization strategy that decouples training into Collaborative Learning Strategy (CoL) for complementary fusion learning and Individual Enhancement Strategy (InE) for protected modality-specific optimization. Experiments across multiple datasets and backbones indicate that CHARM consistently outperform the baselines, with significant increment on the fragile modalities. This work shifts the focus from model homogenization to harmonization, enabling cross-modal complementarity for true harmony in diversity.
- Abstract(参考訳): モダリティ非依存セマンティックセマンティックセグメンテーション(MaSS)は、入力モダリティの任意の組み合わせにわたる堅牢なシーン理解を実現することを目的としている。
既存の方法は通常、各モダリティの特異な強みを希釈し、それらの固有の相補性を破壊する様相同化を達成するために明示的な特徴アライメントに依存している。
相同性よりも協調的調和を実現するために, 相互知覚ユニット (MPU) による暗黙的なアライメントを実現し, 相互相互の相互相互作用を両立させ, 相補的融合学習のための協調学習戦略 (CoL) と個別拡張戦略 (InE) を両立させる, 協調学習戦略 (CoL) を提案する。
複数のデータセットとバックボーンにわたる実験では、CHARMは、脆弱なモダリティに大きな増加とともに、ベースラインを一貫して上回っていることが示されている。
この研究は、モデル均質化から調和化へと焦点を移し、多様性における真の調和に対するモダナルな相補性を可能にする。
関連論文リスト
- Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Dual-Perspective Disentangled Multi-Intent Alignment for Enhanced Collaborative Filtering [7.031525324133112]
暗黙のフィードバックからユーザ意図を遠ざけることは、レコメンデーションシステムの正確性と解釈可能性を高めるための有望な戦略として現れてきた。
DMICFは、意図のアライメント、構造融合、識別訓練を統一する、二重パースペクティブな協調フィルタリングフレームワークである。
DMICFは、さまざまなインタラクション分布を持つデータセット間で、一貫して堅牢なパフォーマンスを提供します。
論文 参考訳(メタデータ) (2025-06-13T07:44:42Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Multi-Modality Collaborative Learning for Sentiment Analysis [12.066757428026163]
マルチモーダル感情分析(MSA)は、視覚、音声、テキストのモダリティを統合することで、ビデオ中の個人の感情状態を特定する。
既存の手法の進歩にもかかわらず、本質的なモダリティの不均一性は、モダリティを越えて対話的な感情の特徴を効果的に捉えることを制限している。
モーダル・コラボレーティブ・ラーニング(Multi-Modality Collaborative Learning)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-21T12:06:21Z) - MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。