論文の概要: Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2510.18437v1
- Date: Tue, 21 Oct 2025 09:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.230083
- Title: Beyond Single Images: Retrieval Self-Augmented Unsupervised Camouflaged Object Detection
- Title(参考訳): 単体画像を超えて:検索可能な自己拡張型無監督カモフラージュ物体検出
- Authors: Ji Du, Xin Wang, Fangwei Hao, Mingyang Yu, Chunyuan Chen, Jiesheng Wu, Bin Wang, Jing Xu, Ping Li,
- Abstract要約: RISEは、トレーニングデータセット全体を利用して、単一画像のための擬似ラベルを生成するパラダイムである。
アノテーションを使わずにトレーニング画像のみを使用することは、高品質なプロトタイプライブラリ構築において顕著な課題である、と認識することが重要である。
KNN検索の段階では,特徴マップにおけるアーティファクトの影響を軽減するために,マルチビューKNN検索を提案する。
- 参考スコア(独自算出の注目度): 18.382178646073474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At the core of Camouflaged Object Detection (COD) lies segmenting objects from their highly similar surroundings. Previous efforts navigate this challenge primarily through image-level modeling or annotation-based optimization. Despite advancing considerably, this commonplace practice hardly taps valuable dataset-level contextual information or relies on laborious annotations. In this paper, we propose RISE, a RetrIeval SElf-augmented paradigm that exploits the entire training dataset to generate pseudo-labels for single images, which could be used to train COD models. RISE begins by constructing prototype libraries for environments and camouflaged objects using training images (without ground truth), followed by K-Nearest Neighbor (KNN) retrieval to generate pseudo-masks for each image based on these libraries. It is important to recognize that using only training images without annotations exerts a pronounced challenge in crafting high-quality prototype libraries. In this light, we introduce a Clustering-then-Retrieval (CR) strategy, where coarse masks are first generated through clustering, facilitating subsequent histogram-based image filtering and cross-category retrieval to produce high-confidence prototypes. In the KNN retrieval stage, to alleviate the effect of artifacts in feature maps, we propose Multi-View KNN Retrieval (MVKR), which integrates retrieval results from diverse views to produce more robust and precise pseudo-masks. Extensive experiments demonstrate that RISE outperforms state-of-the-art unsupervised and prompt-based methods. Code is available at https://github.com/xiaohainku/RISE.
- Abstract(参考訳): カモフラージュされた物体検出(COD)の中核には、非常に類似した環境からオブジェクトを分割するものがある。
以前の取り組みは、主に画像レベルのモデリングやアノテーションベースの最適化を通じて、この課題をナビゲートした。
かなり進歩しているにもかかわらず、この一般的なプラクティスは、貴重なデータセットレベルのコンテキスト情報を利用することはほとんどありません。
本稿では,単一画像の擬似ラベルを生成するためにトレーニングデータセット全体を活用するRetrIeval SElf-augmentedパラダイムRISEを提案する。
RISEはまず、トレーニングイメージを使って環境と迷彩オブジェクトのプロトタイプライブラリを構築し、続いてK-Nearest Neighbor (KNN) 検索を行い、これらのライブラリに基づいて各イメージの擬似マスクを生成する。
アノテーションを使わずにトレーニング画像のみを使用することは、高品質なプロトタイプライブラリ構築において顕著な課題である、と認識することが重要である。
本稿では,クラスタリングによって粗いマスクが最初に生成されるクラスタリング-then-Retrieval(CR)戦略を提案する。
KNN検索の段階では、特徴マップにおけるアーティファクトの影響を軽減するために、多様なビューからの検索結果を統合してより堅牢で正確な擬似マスクを生成するマルチビューKNN検索(MVKR)を提案する。
広範囲な実験により、RISEは最先端の教師なしおよびプロンプトベースの手法より優れていることが示された。
コードはhttps://github.com/xiaohainku/RISEで入手できる。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Detecting Images Generated by Diffusers [12.986394431694206]
MSCOCOとWikimediaのデータセットのキャプションから生成された画像は、安定拡散とGLIDEの2つの最先端モデルを用いて検討する。
実験の結果, 単純なマルチ層パーセプトロンを用いて生成した画像を検出することができることがわかった。
関連したテキスト情報を画像に組み込むと、検出結果が大幅に改善されることは滅多にない。
論文 参考訳(メタデータ) (2023-03-09T14:14:29Z) - Single-pass Object-adaptive Data Undersampling and Reconstruction for
MRI [6.599344783327054]
本稿では,畳み込みニューラルネットワークMNetを用いたデータ駆動型サンプリング手法を提案する。
ネットワークは、各オブジェクトに対する非常に限られた低周波k空間データを観測し、所望のアンダーサンプリングパターンを迅速に予測する。
高速MRI膝関節データセットの実験結果から,提案した学習アンダーサンプリングネットワークを用いて,4倍,8倍の加速度で物体特異的マスクを生成できることが示された。
論文 参考訳(メタデータ) (2021-11-17T16:06:06Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。