論文の概要: First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2508.15313v2
- Date: Mon, 15 Sep 2025 05:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.348176
- Title: First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection
- Title(参考訳): RAG, Second SEG:カモフラージュ物体検出のためのトレーニングフリーパラダイム
- Authors: Wutao Liu, YiDan Wang, Pan Gao,
- Abstract要約: 既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。
RAG-SEGはCODを2段階に分離し,粗いマスクをプロンプトとして生成するRAG(Retrieval-Augmented Generation)と,改良のためのSAMベースセグメンテーション(SEG)の2つを提案する。
RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。
ベンチマークCODデータセットの実験では、RAG-SEGが最先端の手法に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 14.070196423996045
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Camouflaged object detection (COD) poses a significant challenge in computer vision due to the high similarity between objects and their backgrounds. Existing approaches often rely on heavy training and large computational resources. While foundation models such as the Segment Anything Model (SAM) offer strong generalization, they still struggle to handle COD tasks without fine-tuning and require high-quality prompts to yield good performance. However, generating such prompts manually is costly and inefficient. To address these challenges, we propose \textbf{First RAG, Second SEG (RAG-SEG)}, a training-free paradigm that decouples COD into two stages: Retrieval-Augmented Generation (RAG) for generating coarse masks as prompts, followed by SAM-based segmentation (SEG) for refinement. RAG-SEG constructs a compact retrieval database via unsupervised clustering, enabling fast and effective feature retrieval. During inference, the retrieved features produce pseudo-labels that guide precise mask generation using SAM2. Our method eliminates the need for conventional training while maintaining competitive performance. Extensive experiments on benchmark COD datasets demonstrate that RAG-SEG performs on par with or surpasses state-of-the-art methods. Notably, all experiments are conducted on a \textbf{personal laptop}, highlighting the computational efficiency and practicality of our approach. We present further analysis in the Appendix, covering limitations, salient object detection extension, and possible improvements. \textcolor{blue} {Code: https://github.com/Lwt-diamond/RAG-SEG.}
- Abstract(参考訳): カモフラージュされた物体検出(COD)は、物体とその背景との高い類似性のため、コンピュータビジョンにおいて重要な課題となる。
既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。
Segment Anything Model (SAM) のような基礎モデルは強力な一般化を提供するが、彼らは細調整なしでCODタスクを扱うのに苦慮し、優れたパフォーマンスを得るために高品質なプロンプトを必要とする。
しかし、そのようなプロンプトを手動で生成することはコストがかかり非効率である。
これらの課題に対処するため、CODを2段階に分離する訓練自由パラダイムである「textbf{First RAG, Second SEG(RAG-SEG)」を提案し、粗いマスクをプロンプトとして生成する「RAG(Retrieval-Augmented Generation)」と、改良のためのSAMベースセグメンテーション(SEG)を提案する。
RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。
推測中、検索した特徴はSAM2を使用して正確なマスク生成を誘導する擬似ラベルを生成する。
本手法は,競争力を維持しつつ,従来の訓練の必要性を解消する。
ベンチマークCODデータセットに関する大規模な実験は、RAG-SEGが最先端の手法に匹敵する性能を示した。
特に、全ての実験は、我々のアプローチの計算効率と実用性を強調した『textbf{personal laptop}』で実施されている。
我々はAppendixでさらに分析を行い、制限、健全なオブジェクト検出拡張、改善の可能性について紹介する。
https://github.com/Lwt-diamond/RAG-SEG。
※
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - IGMiRAG: Intuition-Guided Retrieval-Augmented Generation with Adaptive Mining of In-Depth Memory [33.00642870872058]
Retrieval-augmented Generation (RAG)は、信頼性の高い知識メモリを備えた大規模言語モデルである。
近年の研究では、グラフとハイパーグラフをRAGに統合し、構造化リンクとしてペアとマルチエンタリティの関係を捉えている。
我々は人間の直観誘導推論に触発されたIGMiRAGを提案する。
論文 参考訳(メタデータ) (2026-02-07T12:42:31Z) - Glance-or-Gaze: Incentivizing LMMs to Adaptively Focus Search via Reinforcement Learning [23.227328832902632]
Glance-or-Gaze(GG)は、受動的知覚からアクティブな視覚計画に移行する、完全に自律的なフレームワークである。
GoGはSelective Gazeメカニズムを導入し、グローバルコンテキストを視認するか、あるいは高価値領域を視認するかを動的に選択する。
6つのベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-20T13:18:18Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。
このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。
本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文 参考訳(メタデータ) (2025-06-10T16:25:15Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。