論文の概要: WeatherPrompt: Multi-modality Representation Learning for All-Weather Drone Visual Geo-Localization
- arxiv url: http://arxiv.org/abs/2508.09560v2
- Date: Thu, 14 Aug 2025 01:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 11:31:31.742894
- Title: WeatherPrompt: Multi-modality Representation Learning for All-Weather Drone Visual Geo-Localization
- Title(参考訳): 天気予報:全天候ドローンのジオローカライゼーションのためのマルチモーダリティ表現学習
- Authors: Jiahao Wen, Hang Yu, Zhedong Zheng,
- Abstract要約: We present WeatherPrompt, a multi-modality learning paradigm that establishs weather-invariant representations through fusing the image embedding with the text context。
我々のフレームワークは、最先端のドローンジオローカライズ手法と比較して、競争力のあるリコール率を達成する。
- 参考スコア(独自算出の注目度): 22.01591564940522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual geo-localization for drones faces critical degradation under weather perturbations, \eg, rain and fog, where existing methods struggle with two inherent limitations: 1) Heavy reliance on limited weather categories that constrain generalization, and 2) Suboptimal disentanglement of entangled scene-weather features through pseudo weather categories. We present WeatherPrompt, a multi-modality learning paradigm that establishes weather-invariant representations through fusing the image embedding with the text context. Our framework introduces two key contributions: First, a Training-free Weather Reasoning mechanism that employs off-the-shelf large multi-modality models to synthesize multi-weather textual descriptions through human-like reasoning. It improves the scalability to unseen or complex weather, and could reflect different weather strength. Second, to better disentangle the scene and weather feature, we propose a multi-modality framework with the dynamic gating mechanism driven by the text embedding to adaptively reweight and fuse visual features across modalities. The framework is further optimized by the cross-modal objectives, including image-text contrastive learning and image-text matching, which maps the same scene with different weather conditions closer in the respresentation space. Extensive experiments validate that, under diverse weather conditions, our method achieves competitive recall rates compared to state-of-the-art drone geo-localization methods. Notably, it improves Recall@1 by +13.37\% under night conditions and by 18.69\% under fog and snow conditions.
- Abstract(参考訳): ドローンの視覚的ジオローカライゼーションは、気象摂動、降雨、霧の下で重大な劣化に直面します。
1)一般化を制約する限られた気象カテゴリーに大きく依存し、
2) 擬似気象カテゴリーによるエンタングルドシーンウェザーの特徴の最適外乱について検討した。
We present WeatherPrompt, a multi-modality learning paradigm that establishs weather-invariant representations through fusing the image embedding with the text context。
筆者らのフレームワークでは,まず,オフザシェルフの大規模マルチモーダルモデルを用いて,人間ライクな推論によるマルチウェザーテキスト記述を合成する,トレーニングフリーな気象応答機構を導入する。
可視性や複雑な天候に対するスケーラビリティを改善し、異なる気象強度を反映することができる。
第2に,シーンと天気の両立を改善するために,テキスト埋め込みにより動的ゲーティング機構を駆動し,視覚的特徴を適応的に重み付けし,モダリティ間で融合させる多モードフレームワークを提案する。
このフレームワークは、画像-テキストのコントラスト学習や画像-テキストマッチングといった、表現空間に近い異なる気象条件で同じシーンをマッピングする、横断的な目的によってさらに最適化されている。
多様な気象条件下では,本手法は現状のドローンのジオローカライズ手法と比較して,競争力のあるリコール率を達成することが実証された。
特に、夜間では+13.37.%、霧や雪では18.69.%改善している。
関連論文リスト
- DA2Diff: Exploring Degradation-aware Adaptive Diffusion Priors for All-in-One Weather Restoration [32.16602874389847]
本稿では,DA2Diff と呼ばれるオールインワン気象の回復に適応した劣化を考慮した拡散パラダイムを提案する。
学習可能な一連のプロンプトをデプロイし、CLIP空間の即時類似性制約によって分解認識表現をキャプチャする。
本稿では,動的気象対応ルータを用いた動的専門家選択変調器を提案する。
論文 参考訳(メタデータ) (2025-04-07T14:38:57Z) - WeatherGFM: Learning A Weather Generalist Foundation Model via In-context Learning [69.82211470647349]
第1次一般気象基礎モデル(WeatherGFM)を紹介する。
気象理解タスクの幅広い範囲を統一的な方法で解決する。
我々のモデルは、天気予報、超解像、天気画像翻訳、後処理など、最大10の気象理解タスクを効果的に処理できる。
論文 参考訳(メタデータ) (2024-11-08T09:14:19Z) - Multiple weather images restoration using the task transformer and adaptive mixup strategy [14.986500375481546]
本稿では,複雑な気象条件を適応的に効果的に処理できる,マルチタスクの厳しい天候除去モデルを提案する。
本モデルでは,気象タスクシークエンスジェネレータを組み込んで,気象タイプに特有な特徴に選択的に注目する自己認識機構を実現する。
提案モデルでは,公開データセット上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-05T04:55:40Z) - Boosting Adverse Weather Crowd Counting via Multi-queue Contrastive Learning [8.692139673789555]
マルチキューコントラスト学習(MQCL)と呼ばれる2段階の群集カウント手法を提案する。
MQCLは、悪天候下でのカウントエラーを22%削減し、計算負荷の約13%の増加しか導入していない。
論文 参考訳(メタデータ) (2024-08-12T07:13:08Z) - All-weather Multi-Modality Image Fusion: Unified Framework and 100k Benchmark [42.49073228252726]
MMIF(Multi-modality Image fusion)は、異なる画像モダリティからの相補的な情報を組み合わせて、より包括的で客観的なシーン解釈を提供する。
既存のMMIF法では、現実の場面で異なる気象干渉に抵抗する能力が欠如しており、自律運転のような実践的な応用では利用できない。
この文脈で効率的なマルチタスクを実現するために,全天候MMIFモデルを提案する。
実世界の場面と合成シーンの両方における実験結果から,提案アルゴリズムは細部回復と多モード特徴抽出に優れることが示された。
論文 参考訳(メタデータ) (2024-02-03T09:02:46Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Counting Crowds in Bad Weather [68.50690406143173]
本研究では,悪天候シナリオにおいて,ロバストな群集カウント手法を提案する。
モデルでは,外見のバリエーションが大きいことを考慮し,効果的な特徴と適応的なクエリを学習する。
実験の結果,提案アルゴリズムは,ベンチマークデータセット上で異なる気象条件下での群集のカウントに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-06-02T00:00:09Z) - ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural
Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。
本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。
マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-03T13:24:06Z) - Weather GAN: Multi-Domain Weather Translation Using Generative
Adversarial Networks [76.64158017926381]
新しいタスク、すなわち、あるカテゴリから別のカテゴリに画像の気象条件を転送することを指す天気翻訳が提案されています。
ジェネレーション・アドバーサリー・ネットワーク(GAN)に基づくマルチドメインの気象翻訳手法を開発しています。
本手法は, 気象翻訳による歪みと変形を抑制する。
論文 参考訳(メタデータ) (2021-03-09T13:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。