論文の概要: Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well
- arxiv url: http://arxiv.org/abs/2502.14471v1
- Date: Thu, 20 Feb 2025 11:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:21.294884
- Title: Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well
- Title(参考訳): セグメンタがカモフラージュされた物体を見つけるのに役立つ外部モダリティの統合
- Authors: Chengyu Fang, Chunming He, Longxiang Tang, Yuelin Zhang, Chenyang Zhu, Yuqi Shen, Chubin Chen, Guoxia Xu, Xiu Li,
- Abstract要約: セグメンテーション性能を向上させるために、多様なデータモダリティを効果的に活用する新しいフレームワークUniCOSを提案する。
UniSEGは、状態空間内でのクロスモーダルな特徴を統合するために状態空間融合機構を採用している。
UniLearnerはCOSタスクとは無関係なマルチモーダルデータを利用して、COSモデルのセグメンテーション能力を改善する。
- 参考スコア(独自算出の注目度): 23.460400679372714
- License:
- Abstract: Camouflaged Object Segmentation (COS) remains a challenging problem due to the subtle visual differences between camouflaged objects and backgrounds. Owing to the exceedingly limited visual cues available from visible spectrum, previous RGB single-modality approaches often struggle to achieve satisfactory results, prompting the exploration of multimodal data to enhance detection accuracy. In this work, we present UniCOS, a novel framework that effectively leverages diverse data modalities to improve segmentation performance. UniCOS comprises two key components: a multimodal segmentor, UniSEG, and a cross-modal knowledge learning module, UniLearner. UniSEG employs a state space fusion mechanism to integrate cross-modal features within a unified state space, enhancing contextual understanding and improving robustness to integration of heterogeneous data. Additionally, it includes a fusion-feedback mechanism that facilitate feature extraction. UniLearner exploits multimodal data unrelated to the COS task to improve the segmentation ability of the COS models by generating pseudo-modal content and cross-modal semantic associations. Extensive experiments demonstrate that UniSEG outperforms existing Multimodal COS (MCOS) segmentors, regardless of whether real or pseudo-multimodal COS data is available. Moreover, in scenarios where multimodal COS data is unavailable but multimodal non-COS data is accessible, UniLearner effectively exploits these data to enhance segmentation performance. Our code will be made publicly available on \href{https://github.com/cnyvfang/UniCOS}{GitHub}.
- Abstract(参考訳): カモフラージュされたオブジェクトと背景の微妙な視覚的差異のため、COS(Camouflaged Object Segmentation)は依然として難しい問題である。
可視光スペクトルから得られる視覚的手がかりが極端に限られているため、従来のRGBシングルモダリティアプローチは満足な結果を達成するのに苦慮し、検出精度を高めるためにマルチモーダルデータの探索を促した。
そこで本研究では,多様なデータモダリティを効果的に活用し,セグメンテーション性能を向上させる新しいフレームワークUniCOSを提案する。
UniCOSは、マルチモーダルセグメンタであるUniSEGと、クロスモーダルな知識学習モジュールであるUniLearnerの2つの重要なコンポーネントから構成されている。
UniSEGは、状態空間内でのクロスモーダルな特徴の統合、コンテキスト理解の強化、異種データの統合に対するロバスト性の向上のために、状態空間融合機構を採用している。
さらに、フィーチャ抽出を容易にするフュージョンフィードバック機構も備えている。
UniLearnerは、COSタスクとは無関係なマルチモーダルデータを利用して、擬似モーダルコンテンツとクロスモーダルセマンティックアソシエーションを生成することで、COSモデルのセグメンテーション能力を向上させる。
大規模な実験により、UniSEGは実データと擬似マルチモーダルCOSのデータが利用できるかどうかに関わらず、既存のMultimodal COS(MCOS)セグメンタより優れていることが示された。
さらに、マルチモーダルCOSデータが利用できないが、マルチモーダル非COSデータにアクセス可能なシナリオでは、UniLearnerはこれらのデータを効果的に活用してセグメンテーション性能を向上させる。
私たちのコードは、 \href{https://github.com/cnyvfang/UniCOS}{GitHub}で公開されます。
関連論文リスト
- Multimodal Collaboration Networks for Geospatial Vehicle Detection in Dense, Occluded, and Large-Scale Events [29.86323896541765]
大規模災害では, 災害現場の物体検出能力に頼って, 最適な救助経路の計画を立てる。
既存の手法は、通常RGBのモダリティに基づいており、混み合った環境で同じ色やテクスチャでターゲットを区別するのに苦労している。
密集・隠蔽車検出のためのマルチモーダル協調ネットワーク MuDet を提案する。
論文 参考訳(メタデータ) (2024-05-14T00:51:15Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation
Approach for Multimodal Conversational Emotion Recognition [37.12407597998884]
Emotion Recognition in Conversation (ERC) は人間とコンピュータのインタラクション(HCI)システムにおいて重要な役割を果たす。
マルチモーダルERCでは、グラフニューラルネットワーク(GNN)は、長距離コンテキスト情報とモーダル間インタラクティブ情報の両方を抽出することができる。
我々は,文脈情報や対話的情報を効率的にモデル化できるグラフベースのクロスモーダル特徴補完(GraphCFC)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-06T13:56:48Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。