論文の概要: CLIP-guided Source-free Object Detection in Aerial Images
- arxiv url: http://arxiv.org/abs/2401.05168v1
- Date: Wed, 10 Jan 2024 14:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:30:25.570202
- Title: CLIP-guided Source-free Object Detection in Aerial Images
- Title(参考訳): 空中画像におけるCLIP誘導ソースフリー物体検出
- Authors: Nanqing Liu, Xun Xu, Yongyi Su, Chengxin Liu, Peiliang Gong, Heng-Chao
Li
- Abstract要約: 本研究では,新しいソースフリーオブジェクト検出法を提案する。
私たちのアプローチは、自己学習フレームワークの上に構築されています。
さらに、コントラスト言語-画像事前学習(CLIP)を統合し、擬似ラベルの生成を指導する。
- 参考スコア(独自算出の注目度): 18.29328831936719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain adaptation is crucial in aerial imagery, as the visual representation
of these images can significantly vary based on factors such as geographic
location, time, and weather conditions. Additionally, high-resolution aerial
images often require substantial storage space and may not be readily
accessible to the public. To address these challenges, we propose a novel
Source-Free Object Detection (SFOD) method. Specifically, our approach is built
upon a self-training framework; however, self-training can lead to inaccurate
learning in the absence of labeled training data. To address this issue, we
further integrate Contrastive Language-Image Pre-training (CLIP) to guide the
generation of pseudo-labels, termed CLIP-guided Aggregation. By leveraging
CLIP's zero-shot classification capability, we use it to aggregate scores with
the original predicted bounding boxes, enabling us to obtain refined scores for
the pseudo-labels. To validate the effectiveness of our method, we constructed
two new datasets from different domains based on the DIOR dataset, named DIOR-C
and DIOR-Cloudy. Experiments demonstrate that our method outperforms other
comparative algorithms.
- Abstract(参考訳): これらの画像の視覚的表現は、地理的位置、時間、気象条件などの要因によって大きく異なるため、航空画像ではドメイン適応が不可欠である。
加えて、高解像度の空中画像は、しばしばかなりのストレージスペースを必要とし、一般にはアクセスできない。
これらの課題に対処するため、我々は新しいソースフリーオブジェクト検出法(SFOD)を提案する。
特に,本手法は自己学習フレームワーク上に構築されているが,ラベル付きトレーニングデータがない場合には,自己学習が不正確な学習につながる可能性がある。
この問題に対処するために、コントラスト言語画像事前学習(CLIP)を統合し、CLIP誘導アグリゲーションと呼ばれる擬似ラベルの生成を誘導する。
CLIPのゼロショット分類機能を利用することで、従来の予測境界ボックスでスコアを集約し、擬似ラベルの洗練されたスコアを得ることができる。
提案手法の有効性を検証するため,DIOR-C と DIOR-Cloudy という,DIOR データセットに基づく2つの新しいデータセットを構築した。
実験により,本手法は他のアルゴリズムよりも優れていることを示した。
関連論文リスト
- Terrain-Informed Self-Supervised Learning: Enhancing Building Footprint
Extraction from LiDAR Data with Limited Annotations [1.3813797867560693]
フットプリントマップの構築は、広範な後処理なしで正確なフットプリント抽出を約束する。
ディープラーニング手法は、一般化とラベルの効率の面で課題に直面している。
リモートセンシングに適した地形認識型自己教師型学習を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:34:23Z) - Exploiting Low-confidence Pseudo-labels for Source-free Object Detection [54.98300313452037]
Source-free Object Detection (SFOD) は、ラベル付きソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされた検出器を適応することを目的としている。
現在のSFOD法は適応相におけるしきい値に基づく擬似ラベル手法を用いる。
疑似ラベルを最大限に活用するために,高信頼度と低信頼度しきい値を導入する手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T12:59:55Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Clustering augmented Self-Supervised Learning: Anapplication to Land
Cover Mapping [10.720852987343896]
本稿では,自己教師型学習のためのクラスタリングに基づくプレテキストタスクを用いて,土地被覆マッピングの新しい手法を提案する。
社会的に関係のある2つのアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-08-16T19:35:43Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。