論文の概要: Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation
- arxiv url: http://arxiv.org/abs/2303.08401v1
- Date: Wed, 15 Mar 2023 07:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:36:34.893708
- Title: Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation
- Title(参考訳): 多視点リモートセンシング画像分割のための入射光変換器
- Authors: Zipeng Qi, Hao Chen, Chenyang Liu, Zhenwei Shi and Zhengxia Zou
- Abstract要約: スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
- 参考スコア(独自算出の注目度): 26.726658200149544
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The mainstream CNN-based remote sensing (RS) image semantic segmentation
approaches typically rely on massive labeled training data. Such a paradigm
struggles with the problem of RS multi-view scene segmentation with limited
labeled views due to the lack of considering 3D information within the scene.
In this paper, we propose ''Implicit Ray-Transformer (IRT)'' based on Implicit
Neural Representation (INR), for RS scene semantic segmentation with sparse
labels (such as 4-6 labels per 100 images). We explore a new way of introducing
multi-view 3D structure priors to the task for accurate and view-consistent
semantic segmentation. The proposed method includes a two-stage learning
process. In the first stage, we optimize a neural field to encode the color and
3D structure of the remote sensing scene based on multi-view images. In the
second stage, we design a Ray Transformer to leverage the relations between the
neural field 3D features and 2D texture features for learning better semantic
representations. Different from previous methods that only consider 3D prior or
2D features, we incorporate additional 2D texture information and 3D prior by
broadcasting CNN features to different point features along the sampled ray. To
verify the effectiveness of the proposed method, we construct a challenging
dataset containing six synthetic sub-datasets collected from the Carla platform
and three real sub-datasets from Google Maps. Experiments show that the
proposed method outperforms the CNN-based methods and the state-of-the-art
INR-based segmentation methods in quantitative and qualitative metrics.
- Abstract(参考訳): 主流のcnnベースのリモートセンシング(rs)イメージセマンティクスセグメンテーションアプローチは、一般的に大量のラベル付きトレーニングデータに依存している。
このようなパラダイムは、シーン内の3d情報を考慮しないため、限定されたラベル付きビューを持つrsマルチビューシーンセグメンテーションの問題に苦しむ。
本稿では,インプリシット・ニューラル・リ表現(INR)に基づく,スパースラベル付きRSシーンセマンティックセマンティックセグメンテーション(100画像あたり4-6ラベルなど)のための「IRT(Implicit Ray-Transformer)」を提案する。
本稿では,タスクに先立ってマルチビューの3d構造を導入する新しい手法について検討する。
提案手法は2段階学習プロセスを含む。
第1段階では,多視点画像に基づくリモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワーク3次元特徴と2次元テクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
3dプリミティブや2d機能のみを考慮した従来の方法とは異なり,cnnの特徴をサンプル線に沿って異なるポイント特徴にブロードキャストすることにより,さらに2dテクスチャ情報と3dプリミティブを組み込む。
提案手法の有効性を検証するため,Carlaプラットフォームから収集した6つの合成サブデータセットと,Google Mapsから収集した3つの実サブデータセットを含む挑戦的なデータセットを構築した。
実験により,提案手法はCNN法と最先端のINR法を定量的,定性的な尺度で比較した。
関連論文リスト
- Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - SRCN3D: Sparse R-CNN 3D Surround-View Camera Object Detection and
Tracking for Autonomous Driving [12.285423418301683]
本稿では、サラウンドビューカメラ検出と追跡のための2段階完全畳み込みマッピングパイプラインであるスパースR-CNN 3D(SRCN3D)を提案する。
提案ボックスは、関心領域(RoI)の局所的特徴を集約するために、ビュービューに投影される。
nuScenesデータセットの実験により,提案したSRCN3D検出器とトラッカーの有効性が示された。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。