論文の概要: Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification
- arxiv url: http://arxiv.org/abs/2311.10320v2
- Date: Mon, 10 Jun 2024 08:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:38:15.269380
- Title: Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification
- Title(参考訳): マルチモーダルリモートセンシング画像分類のための変圧器を用いた不均一なグラフ表現の学習
- Authors: Jiaqi Yang, Bo Du, Liangpei Zhang,
- Abstract要約: 本稿では,変圧器を用いたヘテロジニアサリエントグラフ表現法(THSGR)を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
自己アテンションフリーなマルチ畳み込み変調器は、効果的かつ効率的な長期依存性モデリングのために設計されている。
- 参考スコア(独自算出の注目度): 42.15709954199397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data collected by different modalities can provide a wealth of complementary information, such as hyperspectral image (HSI) to offer rich spectral-spatial properties, synthetic aperture radar (SAR) to provide structural information about the Earth's surface, and light detection and ranging (LiDAR) to cover altitude information about ground elevation. Therefore, a natural idea is to combine multimodal images for refined and accurate land-cover interpretation. Although many efforts have been attempted to achieve multi-source remote sensing image classification, there are still three issues as follows: 1) indiscriminate feature representation without sufficiently considering modal heterogeneity, 2) abundant features and complex computations associated with modeling long-range dependencies, and 3) overfitting phenomenon caused by sparsely labeled samples. To overcome the above barriers, a transformer-based heterogeneously salient graph representation (THSGR) approach is proposed in this paper. First, a multimodal heterogeneous graph encoder is presented to encode distinctively non-Euclidean structural features from heterogeneous data. Then, a self-attention-free multi-convolutional modulator is designed for effective and efficient long-term dependency modeling. Finally, a mean forward is put forward in order to avoid overfitting. Based on the above structures, the proposed model is able to break through modal gaps to obtain differentiated graph representation with competitive time cost, even for a small fraction of training samples. Experiments and analyses on three benchmark datasets with various state-of-the-art (SOTA) methods show the performance of the proposed approach.
- Abstract(参考訳): 様々なモダリティによって収集されたデータは、高スペクトル画像(HSI)による豊富なスペクトル空間特性の提供、地球表面の構造情報の提供のための合成開口レーダー(SAR)、地表面の高度情報をカバーするための光検出と測度(LiDAR)など、多くの補完的な情報を提供することができる。
したがって、自然な考え方は、洗練され正確な土地被覆解釈のためのマルチモーダル画像を組み合わせることである。
マルチソースリモートセンシング画像分類の実現に多くの取り組みが試みられているが、以下の3つの課題がある。
1) 様相の不均一性を十分に考慮しない不特定特徴表現
2)長距離依存関係のモデリングに関連する豊富な特徴と複雑な計算
3) わずかにラベル付けされた試料による過度な適合現象がみられた。
以上の障壁を克服するために,変圧器を用いたヘテロジニアサリエントグラフ表現(THSGR)手法を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
そして, 自己アテンションフリーなマルチ畳み込み変調器を, 効果的かつ効率的な長期依存性モデリングのために設計する。
最後に、過度な適合を避けるために、平均的な前進が行なわれる。
上記の構造に基づいて,本モデルでは,少数のトレーニングサンプルであっても,差分グラフ表現を競合時間で得られるように,モーダルギャップを突破することができる。
様々なSOTA(State-of-the-art)手法を用いた3つのベンチマークデータセットの実験と解析により,提案手法の有効性が示された。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations [37.845442465099396]
ほとんどの後処理法は、対象の観測自体から核分裂のモデルを構築している。
本稿では,教師付き深層学習技術を利用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。
本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,高精度なリコールトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-23T09:22:45Z) - Implicit Gaussian Splatting with Efficient Multi-Level Tri-Plane Representation [45.582869951581785]
Implicit Gaussian Splatting (IGS)は、明示的なポイントクラウドと暗黙的な機能埋め込みを統合する革新的なハイブリッドモデルである。
本稿では,空間正規化を具体化したレベルベースプログレッシブトレーニング手法を提案する。
我々のアルゴリズムは、数MBしか使用せず、ストレージ効率とレンダリング忠実さを効果的にバランスして、高品質なレンダリングを実現することができる。
論文 参考訳(メタデータ) (2024-08-19T14:34:17Z) - A Generative Machine Learning Model for Material Microstructure 3D
Reconstruction and Performance Evaluation [4.169915659794567]
2次元から3次元への次元展開は、現在の技術的観点から非常に難しい逆問題と見なされている。
U-netのマルチスケール特性とGANの生成能力を統合する新しい生成モデルが提案されている。
さらに、画像正規化損失とワッサーシュタイン距離損失を組み合わせることにより、モデルの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-02-24T13:42:34Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - A Multiscale Graph Convolutional Network for Change Detection in
Homogeneous and Heterogeneous Remote Sensing Images [12.823633963080281]
リモートセンシング画像における変化検出(CD)は、常に研究の領域を広げています。
本稿では,グラフ畳み込みネットワーク(gcn)に基づく新しいcd法と,均質画像と異種画像の両方に対して多スケールオブジェクトベース手法を提案する。
論文 参考訳(メタデータ) (2021-02-16T09:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。