論文の概要: DUNIA: Pixel-Sized Embeddings via Cross-Modal Alignment for Earth Observation Applications
- arxiv url: http://arxiv.org/abs/2502.17066v1
- Date: Mon, 24 Feb 2025 11:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:43.958555
- Title: DUNIA: Pixel-Sized Embeddings via Cross-Modal Alignment for Earth Observation Applications
- Title(参考訳): DUNIA:地球観測のためのクロスモーダルアライメントによるレンズサイズの埋め込み
- Authors: Ibrahim Fayad, Max Zimmer, Martin Schwartz, Philippe Ciais, Fabian Gieseke, Gabriel Belouze, Sarah Brood, Aurelien De Truchis, Alexandre d'Aspremont,
- Abstract要約: 画像とフルウェーブフォームLiDARデータの相互アライメントにより画素サイズの埋め込みを学習するDUNIAを提案する。
モデルが対照的に訓練されているため、埋め込みはゼロショット環境で環境監視タスクの文脈で直接活用することができる。
- 参考スコア(独自算出の注目度): 39.0842608370641
- License:
- Abstract: Significant efforts have been directed towards adapting self-supervised multimodal learning for Earth observation applications. However, existing methods produce coarse patch-sized embeddings, limiting their effectiveness and integration with other modalities like LiDAR. To close this gap, we present DUNIA, an approach to learn pixel-sized embeddings through cross-modal alignment between images and full-waveform LiDAR data. As the model is trained in a contrastive manner, the embeddings can be directly leveraged in the context of a variety of environmental monitoring tasks in a zero-shot setting. In our experiments, we demonstrate the effectiveness of the embeddings for seven such tasks (canopy height mapping, fractional canopy cover, land cover mapping, tree species identification, plant area index, crop type classification, and per-pixel waveform-based vertical structure mapping). The results show that the embeddings, along with zero-shot classifiers, often outperform specialized supervised models, even in low data regimes. In the fine-tuning setting, we show strong low-shot capabilities with performances near or better than state-of-the-art on five out of six tasks.
- Abstract(参考訳): 地球観測における自己教師型マルチモーダル学習の適応に向けた重要な取り組みが進められている。
しかし、既存のメソッドは、粗いパッチサイズの埋め込みを生成し、その有効性とLiDARのような他のモダリティとの統合を制限している。
このギャップを埋めるために,DUNIAを提案する。DUNIAは画像とフルウェーブフォームLiDARデータの相互アライメントによって画素サイズの埋め込みを学習する手法である。
モデルが対照的に訓練されているため、組込みはゼロショット環境で様々な環境モニタリングタスクの文脈で直接活用することができる。
本実験では, 樹種識別, 植物面積指数, 作物タイプ分類, および画素ごとの縦構造マッピングの7つのタスクに対する埋め込みの有効性を実証した。
その結果、埋め込みはゼロショット分類器と共に、低データ構造においても、しばしば特別な教師付きモデルよりも優れていることが示された。
微調整環境では、6つのタスクのうち5つのタスクにおいて、最先端に近いパフォーマンスで強力なローショット能力を示す。
関連論文リスト
- An Enhanced Classification Method Based on Adaptive Multi-Scale Fusion for Long-tailed Multispectral Point Clouds [67.96583737413296]
長距離分布を持つMPCに対する適応的マルチスケール融合に基づく拡張型分類法を提案する。
トレーニングセット生成段階では、スパースラベル付きデータセットからトレーニングサンプルを確実に生成するグリッドバランスサンプリング戦略が設計されている。
特徴学習の段階では,異なるスケールの土地被覆の浅い特徴を融合させるため,マルチスケールの特徴融合モジュールが提案されている。
論文 参考訳(メタデータ) (2024-12-16T03:21:20Z) - Boosting Few-Shot Detection with Large Language Models and Layout-to-Image Synthesis [1.1633929083694388]
本稿では,最先端な生成的拡張アプローチを超越した,少数ショット検出のためのフレームワークを提案する。
我々は,新しいレイアウト対応CLIPスコアをサンプルランキングに導入し,生成したレイアウトと画像の密結合を可能にする。
アプローチでは,COCO5-,10-,30ショット設定でYOLOX-Sベースラインを140%以上,50%,35%のmAPで強化する。
論文 参考訳(メタデータ) (2024-10-09T12:57:45Z) - Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms [1.1557852082644071]
少数の分類の文脈において、ゴールは、限られた数のサンプルを使用して分類器を訓練することである。
伝統的なメートル法は、この目的を達成するための一定の限界を示す。
提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
論文 参考訳(メタデータ) (2024-09-12T12:34:29Z) - Adapt CLIP as Aggregation Instructor for Image Dehazing [17.29370328189668]
ほとんどの脱ヘイジング法は、限られた受容領域に悩まされており、視覚言語モデルにカプセル化される前の豊かな意味を探索しない。
先駆的なハイブリッドフレームワークであるCLIPHazeを紹介し、Mambaの効率的なグローバルモデリングとCLIPの事前知識とゼロショット機能とを相乗化する。
並列状態空間モデルとウィンドウベースの自己アテンションを用いて,グローバルな文脈依存性と局所的な微粒化知覚を得る。
論文 参考訳(メタデータ) (2024-08-22T11:51:50Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - 6D Camera Relocalization in Visually Ambiguous Extreme Environments [79.68352435957266]
本研究では,深海や地球外地形などの極端な環境下で得られた画像の列から,カメラのポーズを確実に推定する手法を提案する。
本手法は,室内ベンチマーク (7-Scenes データセット) における最先端手法と同等の性能を20%のトレーニングデータで達成する。
論文 参考訳(メタデータ) (2022-07-13T16:40:02Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - A Contrastive Learning Approach to Auroral Identification and
Classification [0.8399688944263843]
オーロラ画像分類の課題に対する教師なし学習の新たな応用法を提案する。
オーロラ画像の表現を学習するためのコントラスト学習(SimCLR)アルゴリズムを改良し,適応する。
当社のアプローチは、運用目的の確立されたしきい値を超え、デプロイメントと利用の準備ができていることを実証しています。
論文 参考訳(メタデータ) (2021-09-28T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。