論文の概要: Referring Camouflaged Object Detection With Multi-Context Overlapped Windows Cross-Attention
- arxiv url: http://arxiv.org/abs/2511.13249v1
- Date: Mon, 17 Nov 2025 11:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.15376
- Title: Referring Camouflaged Object Detection With Multi-Context Overlapped Windows Cross-Attention
- Title(参考訳): マルチコンテキストオーバーラップWindowsクロスアテンションによるカモフラージュオブジェクト検出の参照
- Authors: Yu Wen, Shuyong Gao, Shuping Zhang, Miao Huang, Lili Tao, Han Yang, Haozhe Xing, Lihe Zhang, Boxue Hou,
- Abstract要約: Referring camouflaged object detection (Ref-COD)は、画像やテキスト記述などの参照情報を組み込んで隠れた物体を識別することを目的としている。
本研究では,多言語融合による高精細画像特徴と擬似オブジェクト特徴の融合による性能向上手法を検討する。
- 参考スコア(独自算出の注目度): 22.790236918151574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring camouflaged object detection (Ref-COD) aims to identify hidden objects by incorporating reference information such as images and text descriptions. Previous research has transformed reference images with salient objects into one-dimensional prompts, yielding significant results. We explore ways to enhance performance through multi-context fusion of rich salient image features and camouflaged object features. Therefore, we propose RFMNet, which utilizes features from multiple encoding stages of the reference salient images and performs interactive fusion with the camouflage features at the corresponding encoding stages. Given that the features in salient object images contain abundant object-related detail information, performing feature fusion within local areas is more beneficial for detecting camouflaged objects. Therefore, we propose an Overlapped Windows Cross-attention mechanism to enable the model to focus more attention on the local information matching based on reference features. Besides, we propose the Referring Feature Aggregation (RFA) module to decode and segment the camouflaged objects progressively. Extensive experiments on the Ref-COD benchmark demonstrate that our method achieves state-of-the-art performance.
- Abstract(参考訳): Referring camouflaged object detection (Ref-COD)は、画像やテキスト記述などの参照情報を組み込んで隠れた物体を識別することを目的としている。
従来の研究は、静かな物体の参照画像を1次元のプロンプトに変換し、重要な結果をもたらした。
本研究では,多言語融合による高精細画像特徴と擬似オブジェクト特徴の融合による性能向上手法を検討する。
そこで,本研究では,参照サルエント画像の複数のエンコーディング段階の特徴を利用したRAMNetを提案し,対応するエンコーディング段階におけるカモフラージュ特徴と対話的な融合を行う。
対象物画像の特徴が豊富な対象物の詳細情報を含んでいることを考えると、局所領域内での特徴融合を行うことは、偽造対象を検出するのにより有益である。
そこで本研究では,参照機能に基づく局所的な情報マッチングをより重視するための,オーバーラップされたWindowsクロスアテンション機構を提案する。
さらに,提案するRFA(Referring Feature Aggregation)モジュールにより,キャモフラージュしたオブジェクトを段階的にデコードし,分割する。
Ref-CODベンチマークの大規模な実験により,本手法が最先端の性能を実現することを示す。
関連論文リスト
- Object-Aware Video Matting with Cross-Frame Guidance [35.785998735049006]
我々は、異なるオブジェクトを知覚し、前景オブジェクトの協調認識とエッジ詳細の洗練を可能にする、トリマップフリーなオブジェクト認識ビデオマッチング(OAVM)フレームワークを提案する。
具体的には,OGCR(Object-Guided Correction and Refinement)モジュールを提案する。
また、逐次シナリオを多様化し、オブジェクト識別のためのネットワークの容量を高めるために、逐次フォアグラウンドマージ拡張戦略を設計する。
論文 参考訳(メタデータ) (2025-03-03T07:40:32Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Referring Camouflaged Object Detection [88.63744004901655]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - Detector Guidance for Multi-Object Text-to-Image Generation [61.70018793720616]
Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。
人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
論文 参考訳(メタデータ) (2023-06-04T02:33:12Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection [10.04773536815808]
画像中の不明瞭な物体を見つける人間の振る舞いを模倣する,Multi-view Feature Fusion Network (MFFN) と呼ばれる行動に触発されたフレームワークを提案する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
提案手法は,同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-10-12T16:12:58Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。