論文の概要: Language-Guided Structure-Aware Network for Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2603.24355v1
- Date: Wed, 25 Mar 2026 14:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.333229
- Title: Language-Guided Structure-Aware Network for Camouflaged Object Detection
- Title(参考訳): カモフラージュ対象検出のための言語ガイド型構造認識ネットワーク
- Authors: Min Zhang,
- Abstract要約: Camouflaged Object Detection (COD) は、色、テクスチャ、構造において背景と高度に統合されたオブジェクトを分割することを目的としている。
既存の手法では、上記の問題を緩和するために、マルチスケールの融合とアテンション機構を導入している。
本稿では,言語ガイド型構造認識ネットワーク(LGSAN)を提案する。
- 参考スコア(独自算出の注目度): 15.32173600433245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged Object Detection (COD) aims to segment objects that are highly integrated with the background in terms of color, texture, and structure, making it a highly challenging task in computer vision. Although existing methods introduce multi-scale fusion and attention mechanisms to alleviate the above issues, they generally lack the guidance of textual semantic priors, which limits the model's ability to focus on camouflaged regions in complex scenes. To address this issue, this paper proposes a Language-Guided Structure-Aware Network (LGSAN). Specifically, based on the visual backbone PVT-v2, we introduce CLIP to generate masks from text prompts and RGB images, thereby guiding the multi-scale features extracted by PVT-v2 to focus on potential target regions. On this foundation, we further design a Fourier Edge Enhancement Module (FEEM), which integrates multi-scale features with high-frequency information in the frequency domain to extract edge enhancement features. Furthermore, we propose a Structure-Aware Attention Module (SAAM) to effectively enhance the model's perception of object structures and boundaries. Finally, we introduce a Coarse-Guided Local Refinement Module (CGLRM) to enhance fine-grained reconstruction and boundary integrity of camouflaged object regions. Extensive experiments demonstrate that our method consistently achieves highly competitive performance across multiple COD datasets, validating its effectiveness and robustness.
- Abstract(参考訳): Camouflaged Object Detection (COD) は、色、テクスチャ、構造において背景と高度に統合されたオブジェクトを分割することを目的としており、コンピュータビジョンにおいて非常に難しいタスクである。
既存の手法では、上記の問題を緩和するために、マルチスケールの融合とアテンションメカニズムを導入しているが、それらは一般的に、複雑なシーンにおけるカモフラージュされた領域にフォーカスする能力を制限する、テキストセマンティック先行のガイダンスを欠いている。
本稿では,言語ガイド型構造認識ネットワーク(LGSAN)を提案する。
具体的には、視覚的バックボーンPVT-v2に基づいて、テキストプロンプトとRGB画像からマスクを生成するCLIPを導入し、PVT-v2によって抽出されたマルチスケール特徴を潜在的ターゲット領域に集中させる。
本研究の基盤となるFourier Edge Enhancement Module (FEEM) は,周波数領域の高周波情報とマルチスケール特徴を統合し,エッジ強調特徴を抽出する。
さらに,対象構造と境界に対する知覚を効果的に増強する構造認識注意モジュール (SAAM) を提案する。
最後に,カースガイド型局所微細化モジュール(CGLRM)を導入し,カモフラージュされた対象領域の微細化と境界の整合性を高める。
大規模な実験により,本手法は複数のCODデータセットにまたがる高い競争性能を連続的に達成し,その有効性と堅牢性を検証した。
関連論文リスト
- SFGNet: Semantic and Frequency Guided Network for Camouflaged Object Detection [2.8563206958455467]
SFGNet(Semantic and Frequency Guided Network)を提案する。
セマンティック・プロンプトと周波数領域の機能を組み込んでカモフラージュされたオブジェクトをキャプチャし、境界知覚を改善する。
3つのCODベンチマークデータセットで行った大規模な実験により、我々の手法は最先端のアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-09-15T03:15:31Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。