論文の概要: DisDop: Distillation with Domain Priors for Open-Vocabulary Aerial Object Detection
- arxiv url: http://arxiv.org/abs/2605.24639v1
- Date: Sat, 23 May 2026 16:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.288748
- Title: DisDop: Distillation with Domain Priors for Open-Vocabulary Aerial Object Detection
- Title(参考訳): DisDop:オープンボキャブラリ型空中物体検出のためのドメインプライオリティ付き蒸留
- Authors: Ruihao Xu, Yong Liu, Yansong Tang, Sule Bai, Xubing Ye, Bingyao Yu, Yutao Guo, Jiwen Lu, Jie Zhou,
- Abstract要約: リモートセンシング基礎モデルからマルチレベルドメインを抽出する統合フレームワークであるDisDopを提案する。
DisDopは、オープンボキャブラリ空中検出ベンチマーク上で、最先端のパフォーマンスを新たに実現している。
- 参考スコア(独自算出の注目度): 75.11656789221072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread application of drones in recent years, object detection of aerial images has attracted increasing attention, especially open-vocabulary aerial detection which is not restricted to predefined categories. Due to the scarcity of drone's viewpoint images and their significant differences from natural images, it is difficult to achieve satisfying results by directly applying vanilla open-vocabulary detection methods designed for natural scenarios. Some studies propose to transfer knowledge from pre-trained models by using lightweight networks or generating pseudo labels, but they tend to rely on models trained on natural images, neglecting the potential of foundation models specifically tailored for remote sensing and aerial imagery. To address this limitation, we propose DisDop, a unified framework that systematically distills multi-level domain priors from remote sensing foundation models (e.g., RemoteCLIP and DINOv3) into a lightweight detector. Specifically, we first distill visual priors through a teacher fusion strategy that combines RemoteCLIP's cross-modal alignment capability with DINOv3's fine-grained local feature extraction ability, transferring their complementary strengths to the detector's backbone. Second, we distill textual priors embedded in RemoteCLIP's text encoder by explicitly modeling inter-category semantic relationships, while incorporating global contextual priors to enhance local feature representation for small objects. Through this multi-level prior distillation framework, our DisDop achieves new state-of-the-art performance on open-vocabulary aerial detection benchmarks. Extensive ablation analysis also demonstrates the rationality and effectiveness of our proposed modules.
- Abstract(参考訳): 近年、ドローンの普及に伴い、航空機画像の物体検出が注目され、特に未定義のカテゴリーに限定されないオープン語彙の空中検出が注目されている。
ドローンの視点画像の不足と、自然画像との大きな違いのため、自然シナリオ用に設計されたバニラ開語彙検出手法を直接適用することにより、満足度の高い結果を達成することは困難である。
いくつかの研究では、軽量なネットワークや擬似ラベルを用いて事前訓練されたモデルから知識を伝達することを提案するが、それらは、リモートセンシングや空中画像に特化された基礎モデルの可能性を無視して、自然画像に基づいて訓練されたモデルに依存する傾向にある。
この制限に対処するため,リモートセンシング基礎モデル(RemoteCLIP,DINOv3)からマルチレベルドメインを体系的に蒸留する統合フレームワークであるDisDopを提案する。
具体的には、まず、RemoteCLIPのクロスモーダルアライメント能力とDINOv3のきめ細かい局所特徴抽出能力を組み合わせて、教師の融合戦略により視覚的前兆を蒸留し、その相補的な強度を検出器の背骨に伝達する。
第2に,RemoteCLIPのテキストエンコーダに埋め込まれたテキスト先行情報を,カテゴリ間セマンティック関係を明示的にモデル化し,グローバルなコンテキスト先行を組み込んで,小さなオブジェクトの局所的特徴表現を強化する。
この多段先行蒸留フレームワークにより,オープンボキャブラリ空中検出ベンチマークの最先端性能を実現した。
包括的アブレーション解析は,提案モジュールの合理性と有効性を示す。
関連論文リスト
- Visual Prototype Conditioned Focal Region Generation for UAV-Based Object Detection [23.097895224926905]
無人航空機(UAV)に基づく物体検出は、限られた注釈付きトレーニングデータで動的に変化するシナリオに適用する場合、重要ではあるが困難な課題である。
UAVに基づくオブジェクト検出に適した新しいレイアウト・ツー・イメージ生成フレームワークであるUAVGenを提案する。
本手法は最先端の手法を著しく上回り、異なる検出器と統合した場合の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2026-04-03T11:00:24Z) - Cross-View Open-Vocabulary Object Detection in Aerial Imagery [48.851422992413184]
本研究では,地上画像からオープン語彙表現を適応させる新しい枠組みを提案し,空中画像における物体検出の課題を解決した。
コントラスト画像と画像のアライメントを導入し、空中と地上の埋め込みの類似性を高める。
我々のオープン語彙モデルは、DOTAv2上の+6.32 mAP、VisDrone上の+4.16 mAP、ゼロショット設定時のHRRSD上の+3.46 mAPの改善を実現する。
論文 参考訳(メタデータ) (2025-10-04T16:12:03Z) - VFM-Guided Semi-Supervised Detection Transformer under Source-Free Constraints for Remote Sensing Object Detection [9.029534000674388]
VG-DETRは、Vision Foundation Model(VFM)を「フリーランチ」方法でトレーニングパイプラインに統合する。
擬似ラベルの信頼性を評価するために,VFMのセマンティックな事前情報を利用した擬似ラベルマイニング手法を提案する。
さらに,デュアルレベルのVFM誘導アライメント手法を提案し,インスタンスレベルと画像レベルでのVFM埋め込みと検出器特性を一致させる。
論文 参考訳(メタデータ) (2025-08-15T02:35:56Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - ReContrast: Domain-Specific Anomaly Detection via Contrastive
Reconstruction [29.370142078092375]
殆どの高度な教師なし異常検出(UAD)手法は、大規模データセットで事前訓練された冷凍エンコーダネットワークの特徴表現をモデル化することに依存している。
本稿では,事前学習した画像領域に対するバイアスを低減するために,ネットワーク全体を最適化する新しい疫学的UAD手法であるReContrastを提案する。
2つの一般的な産業欠陥検出ベンチマークと3つの医用画像UADタスクで実験を行い、現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-05T05:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。