論文の概要: CROMA: Remote Sensing Representations with Contrastive Radar-Optical
Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2311.00566v1
- Date: Wed, 1 Nov 2023 15:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:17:32.641993
- Title: CROMA: Remote Sensing Representations with Contrastive Radar-Optical
Masked Autoencoders
- Title(参考訳): CROMA:コントラストレーダ光マスクオートエンコーダを用いたリモートセンシング
- Authors: Anthony Fuller, Koreen Millard, James R. Green
- Abstract要約: リモートセンシングは、広範にラベル付き、空間的に整列したマルチモーダルデータを提供する。
コントラストと再構成を組み合わせたフレームワークであるCROMAを,リッチな一様・多様表現の学習のために提案する。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A vital and rapidly growing application, remote sensing offers vast yet
sparsely labeled, spatially aligned multimodal data; this makes self-supervised
learning algorithms invaluable. We present CROMA: a framework that combines
contrastive and reconstruction self-supervised objectives to learn rich
unimodal and multimodal representations. Our method separately encodes
masked-out multispectral optical and synthetic aperture radar samples --
aligned in space and time -- and performs cross-modal contrastive learning.
Another encoder fuses these sensors, producing joint multimodal encodings that
are used to predict the masked patches via a lightweight decoder. We show that
these objectives are complementary when leveraged on spatially aligned
multimodal data. We also introduce X- and 2D-ALiBi, which spatially biases our
cross- and self-attention matrices. These strategies improve representations
and allow our models to effectively extrapolate to images up to 17.6x larger at
test-time. CROMA outperforms the current SoTA multispectral model, evaluated
on: four classification benchmarks -- finetuning (avg. 1.8%), linear (avg.
2.4%) and nonlinear (avg. 1.4%) probing, kNN classification (avg. 3.5%), and
K-means clustering (avg. 8.4%); and three segmentation benchmarks (avg. 6.4%).
CROMA's rich, optionally multimodal representations can be widely leveraged
across remote sensing applications.
- Abstract(参考訳): 重要かつ急速に成長するアプリケーションであるリモートセンシングは、広範にラベル付けされた、空間的に整合したマルチモーダルデータを提供する。
croma: リッチなユニモーダル表現とマルチモーダル表現を学ぶために、コントラストとレコンストラクションの自己教師付き目標を組み合わせたフレームワークです。
本手法は、マスク付きマルチスペクトル光と合成開口レーダのサンプルを、空間と時間で並べて別々に符号化し、クロスモーダルコントラスト学習を行う。
別のエンコーダはこれらのセンサーを融合させ、軽量デコーダを介してマスクされたパッチを予測するために使用されるジョイントマルチモーダル符号化を生成する。
これらの目的は、空間的に整列したマルチモーダルデータに利用した場合に相補的であることを示す。
また,クロス・アンド・セルフ・アテンション行列を空間的にバイアスするx-および2d-アリビを導入する。
これらの戦略は表現を改善し、テスト時に最大17.6倍の画像を効果的に外挿できるようにする。
cromaは4つの分類ベンチマーク -- 微調整(avg.1.8%)、線形(avg.2.4%)、非線形(avg.1.4%)、探索、kn分類(avg.3.5%)、k-meansクラスタリング(avg.8.4%)、3つのセグメンテーションベンチマーク(avg.6.4%)で評価されている。
CROMAのリッチでオプションでマルチモーダルな表現はリモートセンシングアプリケーションで広く活用できる。
関連論文リスト
- GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識は ユニセンサーシステムの弱点を克服する能力によって 注目を集めています
本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。
我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。
4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文 参考訳(メタデータ) (2024-03-30T17:29:13Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - Shared Manifold Learning Using a Triplet Network for Multiple Sensor
Translation and Fusion with Missing Data [2.452410403088629]
コントラスト学習に基づくマルチモーダルアライメントネットワーク(CoMMANet)を提案する。
提案アーキテクチャでは,マルチモーダルな三重項オートエンコーダを用いて,各不均一なモジュラリティの同一クラスのサンプルが互いに近接してマッピングされるように潜在空間をクラスタリングする。
論文 参考訳(メタデータ) (2022-10-25T20:22:09Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。