論文の概要: Domain-RAG: Retrieval-Guided Compositional Image Generation for Cross-Domain Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2506.05872v1
- Date: Fri, 06 Jun 2025 08:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.385715
- Title: Domain-RAG: Retrieval-Guided Compositional Image Generation for Cross-Domain Few-Shot Object Detection
- Title(参考訳): Domain-RAG: クロスドメインFewショットオブジェクト検出のための検索ガイド付き合成画像生成
- Authors: Yu Li, Xingyu Qiu, Yuqian Fu, Jie Chen, Tianwen Qian, Xu Zheng, Danda Pani Paudel, Yanwei Fu, Xuanjing Huang, Luc Van Gool, Yu-Gang Jiang,
- Abstract要約: Cross-Domain Few-Shot Object Detection (CD-FSOD) は、未確認領域の少数のラベル付きサンプルで新しいオブジェクトを検出することを目的としている。
データ拡張と生成手法は、数ショットの学習において有望であるが、CD-FSODの有効性は未だ不明である。
我々は,CD-FSODに適した学習不要で検索誘導型合成画像生成フレームワークであるDomain-RAGを提案する。
- 参考スコア(独自算出の注目度): 132.63712430690856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Domain Few-Shot Object Detection (CD-FSOD) aims to detect novel objects with only a handful of labeled samples from previously unseen domains. While data augmentation and generative methods have shown promise in few-shot learning, their effectiveness for CD-FSOD remains unclear due to the need for both visual realism and domain alignment. Existing strategies, such as copy-paste augmentation and text-to-image generation, often fail to preserve the correct object category or produce backgrounds coherent with the target domain, making them non-trivial to apply directly to CD-FSOD. To address these challenges, we propose Domain-RAG, a training-free, retrieval-guided compositional image generation framework tailored for CD-FSOD. Domain-RAG consists of three stages: domain-aware background retrieval, domain-guided background generation, and foreground-background composition. Specifically, the input image is first decomposed into foreground and background regions. We then retrieve semantically and stylistically similar images to guide a generative model in synthesizing a new background, conditioned on both the original and retrieved contexts. Finally, the preserved foreground is composed with the newly generated domain-aligned background to form the generated image. Without requiring any additional supervision or training, Domain-RAG produces high-quality, domain-consistent samples across diverse tasks, including CD-FSOD, remote sensing FSOD, and camouflaged FSOD. Extensive experiments show consistent improvements over strong baselines and establish new state-of-the-art results. Codes will be released upon acceptance.
- Abstract(参考訳): Cross-Domain Few-Shot Object Detection (CD-FSOD) は、未確認領域の少数のラベル付きサンプルで新しいオブジェクトを検出することを目的としている。
データ拡張と生成手法は、数ショットの学習において有望であるが、視覚リアリズムとドメインアライメントの両方を必要とするため、CD-FSODの有効性は依然として不明である。
コピーペースト拡張やテキスト・ツー・イメージ生成といった既存の戦略は、しばしば正しいオブジェクトカテゴリを保存したり、ターゲットドメインと一貫性のあるバックグラウンドを生成できないため、CD-FSODに直接適用するのは簡単ではない。
これらの課題に対処するために,CD-FSODに適したトレーニングフリーで検索誘導型合成画像生成フレームワークであるDomain-RAGを提案する。
Domain-RAGはドメイン認識バックグラウンド検索、ドメイン誘導バックグラウンド生成、前景背景合成の3段階からなる。
具体的には、入力画像は、まず、前景および背景領域に分解される。
次に、意味的およびスタイリスティックに類似した画像を検索し、生成モデルを用いて新しい背景を合成し、元のコンテキストと検索されたコンテキストの両方に条件付けする。
最後に、保存されたフォアグラウンドは、新たに生成されたドメイン整列した背景で構成され、生成された画像を形成する。
追加の監督やトレーニングを必要とせずに、Domain-RAGは、CD-FSOD、リモートセンシングFSOD、camouflaged FSODを含む様々なタスクにわたる高品質でドメイン一貫性のあるサンプルを生成する。
大規模な実験では、強いベースラインよりも一貫した改善が示され、新しい最先端の結果が確立された。
コードは受理後に公開される。
関連論文リスト
- FPL+: Filtered Pseudo Label-based Unsupervised Cross-Modality Adaptation for 3D Medical Image Segmentation [14.925162565630185]
医用画像分割のための拡張フィルタ擬似ラベル (FPL+) を用いたUnsupervised Domain Adaptation (UDA) 手法を提案する。
まず、ソースドメイン内のラベル付き画像を、擬似ソースドメインセットと擬似ターゲットドメインセットからなる二重ドメイントレーニングセットに変換するために、クロスドメインデータ拡張を使用する。
次に、ラベル付きソースドメインイメージとターゲットドメインイメージを擬似ラベルと組み合わせて最終セグメンタを訓練し、不確実性推定に基づく画像レベルの重み付けとデュアルドメインのコンセンサスに基づく画素レベルの重み付けを提案し、ノイズのある擬似の悪影響を軽減する。
論文 参考訳(メタデータ) (2024-04-07T14:21:37Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Source-free Domain Adaptive Object Detection in Remote Sensing Images [11.19538606490404]
本研究では,RS画像のソースフリーオブジェクト検出(SFOD)設定を提案する。
これは、ソース事前学習モデルのみを使用してターゲットドメイン適応を実行することを目的としている。
本手法では,ソース領域RS画像へのアクセスは不要である。
論文 参考訳(メタデータ) (2024-01-31T15:32:44Z) - Rethinking Cross-Domain Pedestrian Detection: A Background-Focused
Distribution Alignment Framework for Instance-Free One-Stage Detectors [25.967313282860626]
クロスドメイン歩行者検出は、あるラベルリッチドメインから別のラベルスカースドメインへの歩行者検出を一般化することを目的としている。
本稿では,BFDA(バックグラウンド指向分布アライメント)という新しい枠組みを提案し,領域適応型1段歩行者検出器を訓練する。
論文 参考訳(メタデータ) (2023-09-15T21:29:27Z) - RPCL: A Framework for Improving Cross-Domain Detection with Auxiliary
Tasks [74.10747285807315]
Cross-Domain Detection (XDD) は、ソースドメインからラベル付きイメージを使用してオブジェクト検出器をトレーニングすることを目的としている。
本稿では,両領域で同じ補助的タスクを同時に学習することで,ドメインを協調させる補完的ソリューションを提供する。
論文 参考訳(メタデータ) (2021-04-18T02:56:19Z) - Super-Resolving Cross-Domain Face Miniatures by Peeking at One-Shot
Exemplar [42.78574493628936]
DAP-FSRネットワークというドメイン対応ピラミッド型顔超解像ネットワークを開発した。
DAP-FSRは、ターゲットドメイン内の一対の高分解能(HR)とLRの例のみを利用して、ターゲットドメインからLR面を超解決する最初の試みです。
遅延表現とデコーダを反復的に更新することで、DAP-FSRはターゲットドメインに適応する。
論文 参考訳(メタデータ) (2021-03-16T05:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。