論文の概要: Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2604.12380v1
- Date: Tue, 14 Apr 2026 07:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.309783
- Title: Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection
- Title(参考訳): 多モードカモフラージュ物体検出のためのモダリティ非依存型プロンプト学習
- Authors: Hao Wang, Jiqing Zhang, Xin Yang, Baocai Yin, Lu Jiang, Zetian Mi, Huibing Wang,
- Abstract要約: 本稿では,Segment Anything Model(SAM)のためのモダリティに依存しないマルチモーダルプロンプトを生成する新しいフレームワークを提案する。
具体的には,データ駆動型コンテンツドメインと知識駆動型プロンプトドメインとのインタラクションを通じて,マルチモーダル学習をモデル化する。
さらに,微粒なプロンプトキューを組み込むことで,粗い予測をキャリブレーションする軽量マスクリファインモジュールを導入する。
- 参考スコア(独自算出の注目度): 61.36976558603528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camouflaged Object Detection (COD) aims to segment objects that blend seamlessly into complex backgrounds, with growing interest in exploiting additional visual modalities to enhance robustness through complementary information. However, most existing approaches generally rely on modality-specific architectures or customized fusion strategies, which limit scalability and cross-modal generalization. To address this, we propose a novel framework that generates modality-agnostic multi-modal prompts for the Segment Anything Model (SAM), enabling parameter-efficient adaptation to arbitrary auxiliary modalities and significantly improving overall performance on COD tasks. Specifically, we model multi-modal learning through interactions between a data-driven content domain and a knowledge-driven prompt domain, distilling task-relevant cues into unified prompts for SAM decoding. We further introduce a lightweight Mask Refine Module to calibrate coarse predictions by incorporating fine-grained prompt cues, leading to more accurate camouflaged object boundaries. Extensive experiments on RGB-Depth, RGB-Thermal, and RGB-Polarization benchmarks validate the effectiveness and generalization of our modality-agnostic framework.
- Abstract(参考訳): Camouflaged Object Detection (COD) は、複雑な背景にシームレスにブレンドするオブジェクトを分割することを目的としており、補完的な情報を通じて堅牢性を高めるために、追加の視覚的モダリティを活用することへの関心が高まっている。
しかし、既存のほとんどのアプローチは、スケーラビリティとクロスモーダルな一般化を制限する、モダリティ固有のアーキテクチャやカスタマイズされた融合戦略に依存している。
そこで本研究では,Segment Anything Model (SAM) に対してモダリティに依存しないマルチモーダルプロンプトを生成する新しいフレームワークを提案する。
具体的には、データ駆動型コンテンツドメインと知識駆動型プロンプトドメインとの相互作用を通じてマルチモーダル学習をモデル化し、タスク関連キューをSAM復号のための統一的なプロンプトに蒸留する。
さらに,微粒なプロンプトキューを組み込んで粗い予測をキャリブレーションする軽量Mask Refine Moduleを導入し,より正確なキャモフラージュオブジェクト境界を導出する。
RGB-Depth、RGB-Thermal、RGB-Polarizationベンチマークの大規模な実験により、我々のモダリティに依存しないフレームワークの有効性と一般化が検証された。
関連論文リスト
- Learning Progressive Adaptation for Multi-Modal Tracking [67.50696675353451]
マルチモーダルトラッカーは通常、パラメータ効率の良い微調整モジュールを備えた事前訓練されたRGBモデルを採用することで構築される。
この問題に対処するため,マルチモーダルトラッキング(PATrack)のためのプログレッシブ・アダプタ(Progressive Adaptation)を提案する。
この革新的なアプローチは、モダリティに依存し、モダリティに絡み合った、タスクレベルのアダプタを取り入れ、マルチモーダルデータにRGB事前学習ネットワークを適用する際のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2026-03-22T07:25:54Z) - Multi-Modal Building Change Detection for Large-Scale Small Changes: Benchmark and Baseline [16.08630411584202]
光リモートセンシング画像における変化検出は, 照明変動, 季節変化, 地表面被覆材料の変動の影響を受けやすい。
本稿では,RGB-NIRビルディング変更検出ベンチマークデータセットであるLSMD(Large-scale Small-change Multi-modal dataset)を紹介する。
さらに,マルチモーダルスペクトル補間ネットワーク (MSCNet) を提案し,効率的なクロスモーダル特徴融合を実現する。
論文 参考訳(メタデータ) (2026-03-19T16:05:05Z) - STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification [14.549172375231729]
3つの主要コンポーネントからなる新しいマルチモーダル学習フレームワークSTMIを提案する。
マルチモーダルReIDシナリオにおけるSTMIフレームワークの有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2026-02-28T15:07:10Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。