論文の概要: LEST: Large-scale LiDAR Semantic Segmentation with Transformer
- arxiv url: http://arxiv.org/abs/2307.09367v1
- Date: Fri, 14 Jul 2023 13:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-07-19 13:55:04.087003
- Title: LEST: Large-scale LiDAR Semantic Segmentation with Transformer
- Title(参考訳): lest:transformerを用いた大規模lidarセマンティクスセグメンテーション
- Authors: Chuanyu Luo, Nuo Cheng, Sikun Ma, Han Li, Xiaohan Li, Shengguang Lei,
Pu Li
- Abstract要約: LESTは、SFC(Space Filling Curve)グループ化戦略と、disCO(Distance-based Cosine Linear Transformer)という2つの新しいコンポーネントから構成される。
我々のモデルは、他の最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 12.514430773932972
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale LiDAR-based point cloud semantic segmentation is a critical task
in autonomous driving perception. Almost all of the previous state-of-the-art
LiDAR semantic segmentation methods are variants of sparse 3D convolution.
Although the Transformer architecture is becoming popular in the field of
natural language processing and 2D computer vision, its application to
large-scale point cloud semantic segmentation is still limited. In this paper,
we propose a LiDAR sEmantic Segmentation architecture with pure Transformer,
LEST. LEST comprises two novel components: a Space Filling Curve (SFC) Grouping
strategy and a Distance-based Cosine Linear Transformer, DISCO. On the public
nuScenes semantic segmentation validation set and SemanticKITTI test set, our
model outperforms all the other state-of-the-art methods.
- Abstract(参考訳): 大規模lidarベースのポイントクラウドセマンティクスセグメンテーションは、自動運転知覚において重要なタスクである。
これまでのLiDARセマンティックセグメンテーション手法のほとんど全てがスパース3D畳み込みの変種である。
自然言語処理と2次元コンピュータビジョンの分野ではトランスフォーマーアーキテクチャが普及しているが、大規模ポイントクラウドセマンティクスセグメンテーションへの応用はまだ限られている。
本稿では,LDAR sEmantic Segmentation Architecture with pure Transformer, LESTを提案する。
LESTは、SFC(Space Filling Curve)グループ戦略と、 DisCO(Distance-based Cosine Linear Transformer)の2つの新しいコンポーネントで構成されている。
public nuscenes semantic segmentation validation setとsemantickitti test setでは、このモデルは他の最先端メソッドよりも優れています。
関連論文リスト
- MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - Binary-Gaussian: Compact and Progressive Representation for 3D Gaussian Segmentation [83.90109373769614]
3D Gaussian Splatting (3D-GS)は効率的な3D表現として登場し、セグメンテーションのようなセグメンテーションタスクのための有望な基盤となっている。
本稿では,各特徴を2進数対決定写像によって1つの整数に圧縮する,ガウス単位のカテゴリ表現のための粗大なバイナリ符号化方式を提案する。
さらに,個別のサブタスクに分割し,クラス間の衝突を減らし,きめ細かいセグメンテーション能力を向上させるプログレッシブトレーニング戦略を設計する。
論文 参考訳(メタデータ) (2025-11-30T15:51:30Z) - Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - RangeSAM: Leveraging Visual Foundation Models for Range-View repesented LiDAR segmentation [6.513648249086729]
本稿では,SAM2を3次元セグメンテーションに適応させる最初のレンジビューフレームワークを提案する。
提案手法は,2D中心パイプラインの速度,スケーラビリティ,デプロイメントの単純さを生かしながら,セマンティックKITTI上での競合性能を実現する。
論文 参考訳(メタデータ) (2025-09-19T11:33:10Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using
Multi-Scale Convolution Attention [0.0]
本稿では,LDARに基づくセマンティックセマンティックセマンティクスのためのエンコーダデコーダ構造を持つLENetと呼ばれるプロジェクションベースのセマンティクスセマンティクスセマンティクスネットワークを提案する。
エンコーダは、特徴を捉えるために、様々な受信フィールドサイズを持つ新しいマルチスケール・コンボリューション・アテンション(MSCA)モジュールで構成されている。
提案手法は, 最先端のセマンティックセグメンテーション法と比較して, 軽量で, 効率的で, 堅牢であることを示す。
論文 参考訳(メタデータ) (2023-01-11T02:51:38Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。