論文の概要: CLIP-guided Source-free Object Detection in Aerial Images
- arxiv url: http://arxiv.org/abs/2401.05168v1
- Date: Wed, 10 Jan 2024 14:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:30:25.570202
- Title: CLIP-guided Source-free Object Detection in Aerial Images
- Title(参考訳): 空中画像におけるCLIP誘導ソースフリー物体検出
- Authors: Nanqing Liu, Xun Xu, Yongyi Su, Chengxin Liu, Peiliang Gong, Heng-Chao
Li
- Abstract要約: 本研究では,新しいソースフリーオブジェクト検出法を提案する。
私たちのアプローチは、自己学習フレームワークの上に構築されています。
さらに、コントラスト言語-画像事前学習(CLIP)を統合し、擬似ラベルの生成を指導する。
- 参考スコア(独自算出の注目度): 18.29328831936719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain adaptation is crucial in aerial imagery, as the visual representation
of these images can significantly vary based on factors such as geographic
location, time, and weather conditions. Additionally, high-resolution aerial
images often require substantial storage space and may not be readily
accessible to the public. To address these challenges, we propose a novel
Source-Free Object Detection (SFOD) method. Specifically, our approach is built
upon a self-training framework; however, self-training can lead to inaccurate
learning in the absence of labeled training data. To address this issue, we
further integrate Contrastive Language-Image Pre-training (CLIP) to guide the
generation of pseudo-labels, termed CLIP-guided Aggregation. By leveraging
CLIP's zero-shot classification capability, we use it to aggregate scores with
the original predicted bounding boxes, enabling us to obtain refined scores for
the pseudo-labels. To validate the effectiveness of our method, we constructed
two new datasets from different domains based on the DIOR dataset, named DIOR-C
and DIOR-Cloudy. Experiments demonstrate that our method outperforms other
comparative algorithms.
- Abstract(参考訳): これらの画像の視覚的表現は、地理的位置、時間、気象条件などの要因によって大きく異なるため、航空画像ではドメイン適応が不可欠である。
加えて、高解像度の空中画像は、しばしばかなりのストレージスペースを必要とし、一般にはアクセスできない。
これらの課題に対処するため、我々は新しいソースフリーオブジェクト検出法(SFOD)を提案する。
特に,本手法は自己学習フレームワーク上に構築されているが,ラベル付きトレーニングデータがない場合には,自己学習が不正確な学習につながる可能性がある。
この問題に対処するために、コントラスト言語画像事前学習(CLIP)を統合し、CLIP誘導アグリゲーションと呼ばれる擬似ラベルの生成を誘導する。
CLIPのゼロショット分類機能を利用することで、従来の予測境界ボックスでスコアを集約し、擬似ラベルの洗練されたスコアを得ることができる。
提案手法の有効性を検証するため,DIOR-C と DIOR-Cloudy という,DIOR データセットに基づく2つの新しいデータセットを構築した。
実験により,本手法は他のアルゴリズムよりも優れていることを示した。
関連論文リスト
- SiamSeg: Self-Training with Contrastive Learning for Unsupervised Domain Adaptation Semantic Segmentation in Remote Sensing [14.007392647145448]
UDAは、ラベル付きソースドメインデータをトレーニングしながら、ラベルなしのターゲットドメインデータからモデルを学習することを可能にする。
コントラスト学習を UDA に統合し,セマンティック情報を取得する能力を向上させることを提案する。
我々のSimSegメソッドは既存の手法より優れ、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-10-17T11:59:39Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - Terrain-Informed Self-Supervised Learning: Enhancing Building Footprint Extraction from LiDAR Data with Limited Annotations [1.3243401820948064]
フットプリントマップの構築は、広範な後処理なしで正確なフットプリント抽出を約束する。
ディープラーニング手法は、一般化とラベルの効率の面で課題に直面している。
リモートセンシングに適した地形認識型自己教師型学習を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:34:23Z) - Exploiting Low-confidence Pseudo-labels for Source-free Object Detection [54.98300313452037]
Source-free Object Detection (SFOD) は、ラベル付きソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされた検出器を適応することを目的としている。
現在のSFOD法は適応相におけるしきい値に基づく擬似ラベル手法を用いる。
疑似ラベルを最大限に活用するために,高信頼度と低信頼度しきい値を導入する手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T12:59:55Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。