論文の概要: Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection
- arxiv url: http://arxiv.org/abs/2504.04517v1
- Date: Sun, 06 Apr 2025 15:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 01:13:04.473958
- Title: Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection
- Title(参考訳): Enhance Then Search: クロスドメインなFew-Shotオブジェクト検出のための基礎モデルによる拡張検索戦略
- Authors: Jiancheng Pan, Yanxing Liu, Xiao He, Long Peng, Jiahao Li, Yuze Sun, Xiaomeng Huang,
- Abstract要約: 広範囲なデータセットで事前訓練されたファンデーションモデルは、クロスドメインの少数ショットオブジェクト検出タスクにおいて顕著に機能している。
画像ベースデータ拡張手法とグリッドベースサブドメイン探索戦略の統合は,これらの基盤モデルの性能を著しく向上させることがわかった。
本研究は,データスカース環境における視覚言語モデルの実践的展開を著しく推し進めるものである。
- 参考スコア(独自算出の注目度): 13.980798935767558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models pretrained on extensive datasets, such as GroundingDINO and LAE-DINO, have performed remarkably in the cross-domain few-shot object detection (CD-FSOD) task. Through rigorous few-shot training, we found that the integration of image-based data augmentation techniques and grid-based sub-domain search strategy significantly enhances the performance of these foundation models. Building upon GroundingDINO, we employed several widely used image augmentation methods and established optimization objectives to effectively navigate the expansive domain space in search of optimal sub-domains. This approach facilitates efficient few-shot object detection and introduces an approach to solving the CD-FSOD problem by efficiently searching for the optimal parameter configuration from the foundation model. Our findings substantially advance the practical deployment of vision-language models in data-scarce environments, offering critical insights into optimizing their cross-domain generalization capabilities without labor-intensive retraining. Code is available at https://github.com/jaychempan/ETS.
- Abstract(参考訳): GroundingDino や LAE-Dino のような広範囲なデータセットで事前訓練された基礎モデルは、クロスドメインのマイクロショットオブジェクト検出(CD-FSOD)タスクにおいて顕著に機能している。
厳密な数ショットトレーニングにより、画像ベースデータ拡張技術とグリッドベースサブドメイン探索戦略の統合により、これらの基礎モデルの性能が大幅に向上することが判明した。
GroundingDINOをベースとした画像拡張手法を複数導入し、最適なサブドメインを探すために拡張領域空間を効果的にナビゲートするための最適化目標を確立した。
提案手法は,CD-FSOD問題を基礎モデルから最適パラメータ設定を効率的に探索することで,効率の良い複数ショットオブジェクト検出を実現する。
本研究は,データスカース環境における視覚言語モデルの実践的展開を著しく推進し,労働集約的トレーニングを伴わずにドメイン間一般化能力を最適化するための重要な洞察を提供する。
コードはhttps://github.com/jaychempan/ETS.comで入手できる。
関連論文リスト
- Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文 参考訳(メタデータ) (2024-12-18T13:03:00Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文 参考訳(メタデータ) (2024-06-03T07:48:18Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Open-Set Domain Adaptation with Visual-Language Foundation Models [51.49854335102149]
非教師なしドメイン適応(UDA)は、ソースドメインからラベルのないデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。
オープンセットドメイン適応(ODA)は、トレーニングフェーズ中にこれらのクラスを識別する潜在的なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-07-30T11:38:46Z) - Target-Aware Generative Augmentations for Single-Shot Adaptation [21.840653627684855]
我々は、ソースドメインからターゲットドメインへのモデル適応のための新しいアプローチを提案する。
SiSTAは、単一ショットターゲットを用いてソースドメインから生成モデルを微調整し、その後、合成ターゲットデータをキュレートするための新しいサンプリング戦略を用いる。
顔検出や多クラス物体認識において,SiSTAは既存のベースラインよりも大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T17:46:26Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - Towards Geospatial Foundation Models via Continual Pretraining [22.825065739563296]
資源コストと炭素の影響を最小限に抑えた高効率基礎モデルを構築するための新しいパラダイムを提案する。
まず、複数のソースからコンパクトだが多様なデータセットを構築し、GeoPileと呼ぶ特徴の多様性を促進する。
次に,大規模なImageNet-22kモデルからの継続事前学習の可能性について検討し,多目的連続事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-09T07:39:02Z) - Enhancing Object Detection for Autonomous Driving by Optimizing Anchor
Generation and Addressing Class Imbalance [0.0]
本研究では,より高速なR-CNNに基づく拡張型2次元物体検出器を提案する。
より高速なr-cnnに対する修正は計算コストを増加させず、他のアンカーベースの検出フレームワークを最適化するために容易に拡張できる。
論文 参考訳(メタデータ) (2021-04-08T16:58:31Z) - Optimized Generic Feature Learning for Few-shot Classification across
Domains [96.4224578618561]
我々は、ハイパーパラメータ最適化(HPO)の検証対象として、クロスドメイン、クロスタスクデータを用いることを提案する。
本手法は,領域内および領域内における少数ショット画像分類における有効性を示す。
学習した機能は、以前の数ショットとメタラーニングのアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-01-22T09:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。