論文の概要: First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2508.15313v2
- Date: Mon, 15 Sep 2025 05:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.348176
- Title: First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection
- Title(参考訳): RAG, Second SEG:カモフラージュ物体検出のためのトレーニングフリーパラダイム
- Authors: Wutao Liu, YiDan Wang, Pan Gao,
- Abstract要約: 既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。
RAG-SEGはCODを2段階に分離し,粗いマスクをプロンプトとして生成するRAG(Retrieval-Augmented Generation)と,改良のためのSAMベースセグメンテーション(SEG)の2つを提案する。
RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。
ベンチマークCODデータセットの実験では、RAG-SEGが最先端の手法に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 14.070196423996045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Camouflaged object detection (COD) poses a significant challenge in computer vision due to the high similarity between objects and their backgrounds. Existing approaches often rely on heavy training and large computational resources. While foundation models such as the Segment Anything Model (SAM) offer strong generalization, they still struggle to handle COD tasks without fine-tuning and require high-quality prompts to yield good performance. However, generating such prompts manually is costly and inefficient. To address these challenges, we propose \textbf{First RAG, Second SEG (RAG-SEG)}, a training-free paradigm that decouples COD into two stages: Retrieval-Augmented Generation (RAG) for generating coarse masks as prompts, followed by SAM-based segmentation (SEG) for refinement. RAG-SEG constructs a compact retrieval database via unsupervised clustering, enabling fast and effective feature retrieval. During inference, the retrieved features produce pseudo-labels that guide precise mask generation using SAM2. Our method eliminates the need for conventional training while maintaining competitive performance. Extensive experiments on benchmark COD datasets demonstrate that RAG-SEG performs on par with or surpasses state-of-the-art methods. Notably, all experiments are conducted on a \textbf{personal laptop}, highlighting the computational efficiency and practicality of our approach. We present further analysis in the Appendix, covering limitations, salient object detection extension, and possible improvements. \textcolor{blue} {Code: https://github.com/Lwt-diamond/RAG-SEG.}
- Abstract(参考訳): カモフラージュされた物体検出(COD)は、物体とその背景との高い類似性のため、コンピュータビジョンにおいて重要な課題となる。
既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。
Segment Anything Model (SAM) のような基礎モデルは強力な一般化を提供するが、彼らは細調整なしでCODタスクを扱うのに苦慮し、優れたパフォーマンスを得るために高品質なプロンプトを必要とする。
しかし、そのようなプロンプトを手動で生成することはコストがかかり非効率である。
これらの課題に対処するため、CODを2段階に分離する訓練自由パラダイムである「textbf{First RAG, Second SEG(RAG-SEG)」を提案し、粗いマスクをプロンプトとして生成する「RAG(Retrieval-Augmented Generation)」と、改良のためのSAMベースセグメンテーション(SEG)を提案する。
RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。
推測中、検索した特徴はSAM2を使用して正確なマスク生成を誘導する擬似ラベルを生成する。
本手法は,競争力を維持しつつ,従来の訓練の必要性を解消する。
ベンチマークCODデータセットに関する大規模な実験は、RAG-SEGが最先端の手法に匹敵する性能を示した。
特に、全ての実験は、我々のアプローチの計算効率と実用性を強調した『textbf{personal laptop}』で実施されている。
我々はAppendixでさらに分析を行い、制限、健全なオブジェクト検出拡張、改善の可能性について紹介する。
https://github.com/Lwt-diamond/RAG-SEG。
※
関連論文リスト
- Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。
このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。
本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文 参考訳(メタデータ) (2025-06-10T16:25:15Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。