論文の概要: Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation
- arxiv url: http://arxiv.org/abs/2303.08401v1
- Date: Wed, 15 Mar 2023 07:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:36:34.893708
- Title: Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation
- Title(参考訳): 多視点リモートセンシング画像分割のための入射光変換器
- Authors: Zipeng Qi, Hao Chen, Chenyang Liu, Zhenwei Shi and Zhengxia Zou
- Abstract要約: スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
- 参考スコア(独自算出の注目度): 26.726658200149544
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The mainstream CNN-based remote sensing (RS) image semantic segmentation
approaches typically rely on massive labeled training data. Such a paradigm
struggles with the problem of RS multi-view scene segmentation with limited
labeled views due to the lack of considering 3D information within the scene.
In this paper, we propose ''Implicit Ray-Transformer (IRT)'' based on Implicit
Neural Representation (INR), for RS scene semantic segmentation with sparse
labels (such as 4-6 labels per 100 images). We explore a new way of introducing
multi-view 3D structure priors to the task for accurate and view-consistent
semantic segmentation. The proposed method includes a two-stage learning
process. In the first stage, we optimize a neural field to encode the color and
3D structure of the remote sensing scene based on multi-view images. In the
second stage, we design a Ray Transformer to leverage the relations between the
neural field 3D features and 2D texture features for learning better semantic
representations. Different from previous methods that only consider 3D prior or
2D features, we incorporate additional 2D texture information and 3D prior by
broadcasting CNN features to different point features along the sampled ray. To
verify the effectiveness of the proposed method, we construct a challenging
dataset containing six synthetic sub-datasets collected from the Carla platform
and three real sub-datasets from Google Maps. Experiments show that the
proposed method outperforms the CNN-based methods and the state-of-the-art
INR-based segmentation methods in quantitative and qualitative metrics.
- Abstract(参考訳): 主流のcnnベースのリモートセンシング(rs)イメージセマンティクスセグメンテーションアプローチは、一般的に大量のラベル付きトレーニングデータに依存している。
このようなパラダイムは、シーン内の3d情報を考慮しないため、限定されたラベル付きビューを持つrsマルチビューシーンセグメンテーションの問題に苦しむ。
本稿では,インプリシット・ニューラル・リ表現(INR)に基づく,スパースラベル付きRSシーンセマンティックセマンティックセグメンテーション(100画像あたり4-6ラベルなど)のための「IRT(Implicit Ray-Transformer)」を提案する。
本稿では,タスクに先立ってマルチビューの3d構造を導入する新しい手法について検討する。
提案手法は2段階学習プロセスを含む。
第1段階では,多視点画像に基づくリモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワーク3次元特徴と2次元テクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
3dプリミティブや2d機能のみを考慮した従来の方法とは異なり,cnnの特徴をサンプル線に沿って異なるポイント特徴にブロードキャストすることにより,さらに2dテクスチャ情報と3dプリミティブを組み込む。
提案手法の有効性を検証するため,Carlaプラットフォームから収集した6つの合成サブデータセットと,Google Mapsから収集した3つの実サブデータセットを含む挑戦的なデータセットを構築した。
実験により,提案手法はCNN法と最先端のINR法を定量的,定性的な尺度で比較した。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows [60.291277312569285]
本研究では,単一観測値に基づいてNeRF表現を自動的に修正する手法を提案する。
本手法は, 変形を3次元流れ, 特に剛性変換の重み付き線形ブレンディングとして定義する。
また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-15T07:58:08Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。