Fugu-MT 論文翻訳(概要): DUNIA: Pixel-Sized Embeddings via Cross-Modal Alignment for Earth Observation Applications

論文の概要: DUNIA: Pixel-Sized Embeddings via Cross-Modal Alignment for Earth Observation Applications

arxiv url: http://arxiv.org/abs/2502.17066v1
Date: Mon, 24 Feb 2025 11:28:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.538246
Title: DUNIA: Pixel-Sized Embeddings via Cross-Modal Alignment for Earth Observation Applications
Title（参考訳）: DUNIA:地球観測のためのクロスモーダルアライメントによるレンズサイズの埋め込み
Authors: Ibrahim Fayad, Max Zimmer, Martin Schwartz, Philippe Ciais, Fabian Gieseke, Gabriel Belouze, Sarah Brood, Aurelien De Truchis, Alexandre d'Aspremont,
Abstract要約: 画像とフルウェーブフォームLiDARデータの相互アライメントにより画素サイズの埋め込みを学習するDUNIAを提案する。モデルが対照的に訓練されているため、埋め込みはゼロショット環境で環境監視タスクの文脈で直接活用することができる。
参考スコア（独自算出の注目度）: 39.0842608370641
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Significant efforts have been directed towards adapting self-supervised multimodal learning for Earth observation applications. However, existing methods produce coarse patch-sized embeddings, limiting their effectiveness and integration with other modalities like LiDAR. To close this gap, we present DUNIA, an approach to learn pixel-sized embeddings through cross-modal alignment between images and full-waveform LiDAR data. As the model is trained in a contrastive manner, the embeddings can be directly leveraged in the context of a variety of environmental monitoring tasks in a zero-shot setting. In our experiments, we demonstrate the effectiveness of the embeddings for seven such tasks (canopy height mapping, fractional canopy cover, land cover mapping, tree species identification, plant area index, crop type classification, and per-pixel waveform-based vertical structure mapping). The results show that the embeddings, along with zero-shot classifiers, often outperform specialized supervised models, even in low data regimes. In the fine-tuning setting, we show strong low-shot capabilities with performances near or better than state-of-the-art on five out of six tasks.
Abstract（参考訳）: 地球観測における自己教師型マルチモーダル学習の適応に向けた重要な取り組みが進められている。しかし、既存のメソッドは、粗いパッチサイズの埋め込みを生成し、その有効性とLiDARのような他のモダリティとの統合を制限している。このギャップを埋めるために,DUNIAを提案する。DUNIAは画像とフルウェーブフォームLiDARデータの相互アライメントによって画素サイズの埋め込みを学習する手法である。モデルが対照的に訓練されているため、組込みはゼロショット環境で様々な環境モニタリングタスクの文脈で直接活用することができる。本実験では, 樹種識別, 植物面積指数, 作物タイプ分類, および画素ごとの縦構造マッピングの7つのタスクに対する埋め込みの有効性を実証した。その結果、埋め込みはゼロショット分類器と共に、低データ構造においても、しばしば特別な教師付きモデルよりも優れていることが示された。微調整環境では、6つのタスクのうち5つのタスクにおいて、最先端に近いパフォーマンスで強力なローショット能力を示す。

関連論文リスト

Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
LC-SLab -- An Object-based Deep Learning Framework for Large-scale Land Cover Classification from Satellite Imagery and Sparse In-situ Labels [25.42215602005236]
本研究では,大規模土地被覆分類のためのオブジェクトベース深層学習手法をスパース監督下で探索するLC-SLabを提案する。 LC-SLabは、グラフニューラルネットワークによる入力レベルアグリゲーションと、後処理の結果による出力レベルアグリゲーションの両方をサポートする。その結果、オブジェクトベースの手法は、よりコヒーレントなマップを生成しながら、一般的なピクセル単位のモデルの精度を一致または超えることができることがわかった。
論文参考訳（メタデータ） (2025-09-19T11:08:24Z)
AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities [5.767156832161819]
本稿では,JEPAとスケール適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。この統一アプローチの利点を実証するため、異なる特徴を持つ5つのマルチモーダルデータセットの集合であるGeoPlexをコンパイルする。次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
論文参考訳（メタデータ） (2024-12-18T18:11:53Z)
An Enhanced Classification Method Based on Adaptive Multi-Scale Fusion for Long-tailed Multispectral Point Clouds [67.96583737413296]
長距離分布を持つMPCに対する適応的マルチスケール融合に基づく拡張型分類法を提案する。トレーニングセット生成段階では、スパースラベル付きデータセットからトレーニングサンプルを確実に生成するグリッドバランスサンプリング戦略が設計されている。特徴学習の段階では,異なるスケールの土地被覆の浅い特徴を融合させるため,マルチスケールの特徴融合モジュールが提案されている。
論文参考訳（メタデータ） (2024-12-16T03:21:20Z)
Boosting Few-Shot Detection with Large Language Models and Layout-to-Image Synthesis [1.1633929083694388]
本稿では,最先端な生成的拡張アプローチを超越した,少数ショット検出のためのフレームワークを提案する。我々は,新しいレイアウト対応CLIPスコアをサンプルランキングに導入し,生成したレイアウトと画像の密結合を可能にする。アプローチでは,COCO5-,10-,30ショット設定でYOLOX-Sベースラインを140%以上,50%,35%のmAPで強化する。
論文参考訳（メタデータ） (2024-10-09T12:57:45Z)
Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms [1.1557852082644071]
少数の分類の文脈において、ゴールは、限られた数のサンプルを使用して分類器を訓練することである。伝統的なメートル法は、この目的を達成するための一定の限界を示す。提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
論文参考訳（メタデータ） (2024-09-12T12:34:29Z)
Adapt CLIP as Aggregation Instructor for Image Dehazing [17.29370328189668]
ほとんどの脱ヘイジング法は、限られた受容領域に悩まされており、視覚言語モデルにカプセル化される前の豊かな意味を探索しない。先駆的なハイブリッドフレームワークであるCLIPHazeを紹介し、Mambaの効率的なグローバルモデリングとCLIPの事前知識とゼロショット機能とを相乗化する。並列状態空間モデルとウィンドウベースの自己アテンションを用いて,グローバルな文脈依存性と局所的な微粒化知覚を得る。
論文参考訳（メタデータ） (2024-08-22T11:51:50Z)
Revisiting Generative Adversarial Networks for Binary Semantic Segmentation on Imbalanced Datasets [20.538287907723713]
異常き裂領域検出は典型的なバイナリセマンティックセグメンテーションタスクであり、アルゴリズムによって舗装面画像上のひび割れを表す画素を自動的に検出することを目的としている。既存のディープラーニングベースの手法は、特定の公共舗装のデータセットで優れた結果を得たが、不均衡なデータセットでは性能が劇的に低下する。画素レベルの異常き裂領域検出タスクに対して,条件付き生成逆ネットワーク(cGAN)に基づくディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-03T19:24:40Z)
Terrain-Informed Self-Supervised Learning: Enhancing Building Footprint Extraction from LiDAR Data with Limited Annotations [1.3243401820948064]
フットプリントマップの構築は、広範な後処理なしで正確なフットプリント抽出を約束する。ディープラーニング手法は、一般化とラベルの効率の面で課題に直面している。リモートセンシングに適した地形認識型自己教師型学習を提案する。
論文参考訳（メタデータ） (2023-11-02T12:34:23Z)
Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。提案手法は,既存手法の制御性を効果的に向上することを示す。
論文参考訳（メタデータ） (2023-06-08T17:59:59Z)
Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。 RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文参考訳（メタデータ） (2023-03-09T16:13:27Z)
Towards Effective Image Manipulation Detection with Proposal Contrastive Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文参考訳（メタデータ） (2022-10-16T13:30:13Z)
6D Camera Relocalization in Visually Ambiguous Extreme Environments [79.68352435957266]
本研究では,深海や地球外地形などの極端な環境下で得られた画像の列から,カメラのポーズを確実に推定する手法を提案する。本手法は,室内ベンチマーク (7-Scenes データセット) における最先端手法と同等の性能を20%のトレーニングデータで達成する。
論文参考訳（メタデータ） (2022-07-13T16:40:02Z)
PANet: Perspective-Aware Network with Dynamic Receptive Fields and Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文参考訳（メタデータ） (2021-10-31T04:43:05Z)
A Contrastive Learning Approach to Auroral Identification and Classification [0.8399688944263843]
オーロラ画像分類の課題に対する教師なし学習の新たな応用法を提案する。オーロラ画像の表現を学習するためのコントラスト学習(SimCLR)アルゴリズムを改良し,適応する。当社のアプローチは、運用目的の確立されたしきい値を超え、デプロイメントと利用の準備ができていることを実証しています。
論文参考訳（メタデータ） (2021-09-28T17:51:25Z)
Scale Aware Adaptation for Land-Cover Classification in Remote Sensing Imagery [4.793219747021116]
リモートセンシング画像を用いた土地被覆分類は重要な地球観測課題である。リモートセンシングイメージでディープセグメンテーションモデルをトレーニングするためのベンチマークデータセットは小さい傾向がある。クロスロケーションおよびクロススケールの土地被覆分類を行うためのスケール認識型対人学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-08T05:15:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。