論文の概要: RefOnce: Distilling References into a Prototype Memory for Referring Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2511.20989v1
- Date: Wed, 26 Nov 2025 02:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.926647
- Title: RefOnce: Distilling References into a Prototype Memory for Referring Camouflaged Object Detection
- Title(参考訳): RefOnce:カモフラージュされたオブジェクト検出を参照するためのプロトタイプメモリへの参照の蒸留
- Authors: Yu-Huan Wu, Zi-Xuan Zhu, Yan Wang, Liangli Zhen, Deng-Ping Fan,
- Abstract要約: Ref-CODセグメントは、小さな参照画像のセットを活用することで、シーン内でカモフラージュされたオブジェクトを指定する。
現在のシステムでは、テスト時に参照画像を必要とするデュアルブランチ設計を採用している。
トレーニング中に参照をクラスプロトタイプメモリに蒸留し,推論時に参照ベクトルを合成するRef-CODフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.264612094775988
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring Camouflaged Object Detection (Ref-COD) segments specified camouflaged objects in a scene by leveraging a small set of referring images. Though effective, current systems adopt a dual-branch design that requires reference images at test time, which limits deployability and adds latency and data-collection burden. We introduce a Ref-COD framework that distills references into a class-prototype memory during training and synthesizes a reference vector at inference via a query-conditioned mixture of prototypes. Concretely, we maintain an EMA-updated prototype per category and predict mixture weights from the query to produce a guidance vector without any test-time references. To bridge the representation gap between reference statistics and camouflaged query features, we propose a bidirectional attention alignment module that adapts both the query features and the class representation. Thus, our approach yields a simple, efficient path to Ref-COD without mandatory references. We evaluate the proposed method on the large-scale R2C7K benchmark. Extensive experiments demonstrate competitive or superior performance of the proposed method compared with recent state-of-the-arts. Code is available at https://github.com/yuhuan-wu/RefOnce.
- Abstract(参考訳): カモフラージュされたオブジェクト検出(Ref-COD)セグメントを参照する。
有効ではあるが、現在のシステムは、テスト時に参照イメージを必要とするデュアルブランチ設計を採用しており、デプロイの容易さを制限し、レイテンシとデータ収集の負担を増大させている。
トレーニング中に参照をクラスプロトタイプメモリに蒸留するRef-CODフレームワークを導入し、クエリ条件付きプロトタイプの混合により推論時に参照ベクトルを合成する。
具体的には、カテゴリ毎にEMAを更新したプロトタイプを維持し、クエリから混合重みを予測し、テスト時間参照なしでガイダンスベクトルを生成する。
参照統計とキャモフラージュしたクエリ特徴の表現ギャップを埋めるために,クエリ特徴とクラス表現の両方に適応する双方向のアライメントアライメントモジュールを提案する。
したがって,本手法は必須参照を伴わずにRef-CODへの単純かつ効率的な経路を得る。
提案手法を大規模R2C7Kベンチマークで評価する。
近年の最先端技術と比較して,提案手法の競争力や優れた性能を示す実験が盛んに行われている。
コードはhttps://github.com/yuhuan-wu/RefOnce.comで入手できる。
関連論文リスト
- Investigating Multi-layer Representations for Dense Passage Retrieval [46.25475369974163]
文書の表現を構成するために多層表現(MLR)を示す。
まず,異なる層における表現がマルチベクトル検索条件下でのMLRの性能に与える影響について検討する。
本稿では,マルチベクタモデルから単一ベクタモデルへのプーリング戦略を活用することで,検索効率を向上させることを提案する。
論文 参考訳(メタデータ) (2025-09-28T13:00:53Z) - Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation [61.37076111486196]
Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
論文 参考訳(メタデータ) (2025-08-06T13:05:09Z) - Fine-Grained Prototypes Distillation for Few-Shot Object Detection [8.795211323408513]
Few-shot Object Detection (FSOD) は、新しい物体検出のためのジェネリック検出器を、少数の訓練例で拡張することを目的としている。
一般に、メタラーニングに基づく手法は、新しいサンプルをクラスプロトタイプにエンコードするために追加のサポートブランチを使用する。
より堅牢な新しいオブジェクト検出のために、特徴ある局所的コンテキストをキャプチャするためには、新しい方法が必要である。
論文 参考訳(メタデータ) (2024-01-15T12:12:48Z) - DeLR: Active Learning for Detection with Decoupled Localization and
Recognition Query [53.54802901197267]
本稿では,物体検出のための2つの重要な要素,すなわち局所化と認識を再考する。
そこで本研究では,アクティブクエリの局所化と認識をデカップリングする,効率的なクエリ戦略を提案する。
論文 参考訳(メタデータ) (2023-12-28T09:58:32Z) - Referring Camouflaged Object Detection [88.63744004901655]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。