論文の概要: Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well
- arxiv url: http://arxiv.org/abs/2502.14471v2
- Date: Mon, 19 May 2025 04:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.478327
- Title: Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well
- Title(参考訳): セグメンタがカモフラージュされた物体を見つけるのに役立つ外部モダリティの統合
- Authors: Chengyu Fang, Chunming He, Longxiang Tang, Yuelin Zhang, Chenyang Zhu, Yuqi Shen, Chubin Chen, Guoxia Xu, Xiu Li,
- Abstract要約: MultiCOSは、セグメンテーション性能を改善するために、多様なデータモダリティを効果的に活用する新しいフレームワークである。
BFSerは、実データと擬似データの両方で既存のマルチモーダルベースラインを上回っている。
- 参考スコア(独自算出の注目度): 23.460400679372714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged Object Segmentation (COS) remains challenging because camouflaged objects exhibit only subtle visual differences from their backgrounds and single-modality RGB methods provide limited cues, leading researchers to explore multimodal data to improve segmentation accuracy. In this work, we presenet MultiCOS, a novel framework that effectively leverages diverse data modalities to improve segmentation performance. MultiCOS comprises two modules: Bi-space Fusion Segmentor (BFSer), which employs a state space and a latent space fusion mechanism to integrate cross-modal features within a shared representation and employs a fusion-feedback mechanism to refine context-specific features, and Cross-modal Knowledge Learner (CKLer), which leverages external multimodal datasets to generate pseudo-modal inputs and establish cross-modal semantic associations, transferring knowledge to COS models when real multimodal pairs are missing. When real multimodal COS data are unavailable, CKLer yields additional segmentation gains using only non-COS multimodal sources. Experiments on standard COS benchmarks show that BFSer outperforms existing multimodal baselines with both real and pseudo-modal data. Code will be released at \href{https://github.com/cnyvfang/MultiCOS}{GitHub}.
- Abstract(参考訳): カモフラージュされた物体は背景と微妙な視覚的差異しか示さないため、COS(Camouflaged Object Segmentation)は依然として難しい。
本研究では,多様なデータモダリティを効果的に活用し,セグメンテーション性能を向上させる新しいフレームワークであるMultiCOSについて検討する。
MultiCOSは2つのモジュールから構成される: 状態空間と潜在空間融合機構を使用し、共有表現内にクロスモーダル機能を統合し、コンテキスト固有の特徴を洗練するためのフュージョンフィードバック機構を使用するBi-space Fusion Segmentor (BFSer) と、外部のマルチモーダルデータセットを活用して擬似モーダル入力を生成し、クロスモーダルなセマンティックアソシエーションを確立し、実際のマルチモーダルペアが欠落した時に知識をCOSモデルに転送する Cross-modal Knowledge Learner (CKLer) である。
実際のマルチモーダルCOSデータが利用できない場合、CKLerは非COSマルチモーダルソースのみを使用して追加のセグメンテーションゲインを得る。
標準COSベンチマークの実験では、BFSerは実データと擬似モダルデータの両方で既存のマルチモーダルベースラインを上回っている。
コードは \href{https://github.com/cnyvfang/MultiCOS}{GitHub} でリリースされる。
関連論文リスト
- Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - COMO: Cross-Mamba Interaction and Offset-Guided Fusion for Multimodal Object Detection [9.913133285133998]
単一モードのオブジェクト検出タスクは、多種多様なシナリオに遭遇する際のパフォーマンス劣化を経験することが多い。
マルチモーダルオブジェクト検出タスクは、様々なモダリティからのデータを統合することで、オブジェクト機能に関するより包括的な情報を提供することができる。
本稿では,CrOss-Mamba相互作用とOffset-Guided融合フレームワークという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T01:14:48Z) - Multimodal Collaboration Networks for Geospatial Vehicle Detection in Dense, Occluded, and Large-Scale Events [29.86323896541765]
大規模災害では, 災害現場の物体検出能力に頼って, 最適な救助経路の計画を立てる。
既存の手法は、通常RGBのモダリティに基づいており、混み合った環境で同じ色やテクスチャでターゲットを区別するのに苦労している。
密集・隠蔽車検出のためのマルチモーダル協調ネットワーク MuDet を提案する。
論文 参考訳(メタデータ) (2024-05-14T00:51:15Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation
Approach for Multimodal Conversational Emotion Recognition [37.12407597998884]
Emotion Recognition in Conversation (ERC) は人間とコンピュータのインタラクション(HCI)システムにおいて重要な役割を果たす。
マルチモーダルERCでは、グラフニューラルネットワーク(GNN)は、長距離コンテキスト情報とモーダル間インタラクティブ情報の両方を抽出することができる。
我々は,文脈情報や対話的情報を効率的にモデル化できるグラフベースのクロスモーダル特徴補完(GraphCFC)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-06T13:56:48Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。