論文の概要: Referring Camouflaged Object Detection With Multi-Context Overlapped Windows Cross-Attention
- arxiv url: http://arxiv.org/abs/2511.13249v1
- Date: Mon, 17 Nov 2025 11:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.15376
- Title: Referring Camouflaged Object Detection With Multi-Context Overlapped Windows Cross-Attention
- Title(参考訳): マルチコンテキストオーバーラップWindowsクロスアテンションによるカモフラージュオブジェクト検出の参照
- Authors: Yu Wen, Shuyong Gao, Shuping Zhang, Miao Huang, Lili Tao, Han Yang, Haozhe Xing, Lihe Zhang, Boxue Hou,
- Abstract要約: Referring camouflaged object detection (Ref-COD)は、画像やテキスト記述などの参照情報を組み込んで隠れた物体を識別することを目的としている。
本研究では,多言語融合による高精細画像特徴と擬似オブジェクト特徴の融合による性能向上手法を検討する。
- 参考スコア(独自算出の注目度): 22.790236918151574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring camouflaged object detection (Ref-COD) aims to identify hidden objects by incorporating reference information such as images and text descriptions. Previous research has transformed reference images with salient objects into one-dimensional prompts, yielding significant results. We explore ways to enhance performance through multi-context fusion of rich salient image features and camouflaged object features. Therefore, we propose RFMNet, which utilizes features from multiple encoding stages of the reference salient images and performs interactive fusion with the camouflage features at the corresponding encoding stages. Given that the features in salient object images contain abundant object-related detail information, performing feature fusion within local areas is more beneficial for detecting camouflaged objects. Therefore, we propose an Overlapped Windows Cross-attention mechanism to enable the model to focus more attention on the local information matching based on reference features. Besides, we propose the Referring Feature Aggregation (RFA) module to decode and segment the camouflaged objects progressively. Extensive experiments on the Ref-COD benchmark demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): Referring camouflaged object detection (Ref-COD)は、画像やテキスト記述などの参照情報を組み込んで隠れた物体を識別することを目的としている。
従来の研究は、静かな物体の参照画像を1次元のプロンプトに変換し、重要な結果をもたらした。
本研究では,多言語融合による高精細画像特徴と擬似オブジェクト特徴の融合による性能向上手法を検討する。
そこで,本研究では,参照サルエント画像の複数のエンコーディング段階の特徴を利用したRAMNetを提案し,対応するエンコーディング段階におけるカモフラージュ特徴と対話的な融合を行う。
対象物画像の特徴が豊富な対象物の詳細情報を含んでいることを考えると、局所領域内での特徴融合を行うことは、偽造対象を検出するのにより有益である。
そこで本研究では,参照機能に基づく局所的な情報マッチングをより重視するための,オーバーラップされたWindowsクロスアテンション機構を提案する。
さらに,提案するRFA(Referring Feature Aggregation)モジュールにより,キャモフラージュしたオブジェクトを段階的にデコードし,分割する。
Ref-CODベンチマークの大規模な実験により,本手法が最先端の性能を実現することを示す。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Referring Camouflaged Object Detection [88.63744004901655]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - Detector Guidance for Multi-Object Text-to-Image Generation [61.70018793720616]
Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。
人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
論文 参考訳(メタデータ) (2023-06-04T02:33:12Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection [10.04773536815808]
画像中の不明瞭な物体を見つける人間の振る舞いを模倣する,Multi-view Feature Fusion Network (MFFN) と呼ばれる行動に触発されたフレームワークを提案する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
提案手法は,同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-10-12T16:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。