論文の概要: Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2410.10510v1
- Date: Mon, 14 Oct 2024 13:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:14:59.035787
- Title: Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation
- Title(参考訳): 小データリアルタイムクラウドセマンティックセマンティックセグメンテーションのための局所特徴と範囲画像の爆発的抽出
- Authors: Daniel Fusaro, Simone Mosco, Emanuele Menegatti, Alberto Pretto,
- Abstract要約: 本稿では,3次元表現から得られる情報を利用して局所的な特徴を巧みにとらえる。
GPUベースのKDTreeは、素早いビルド、クエリ、プロジェクションの強化を、簡単な操作で実現している。
我々は,本モデルの縮小バージョンが,本格的な最先端モデルに対して強い競争力を示すだけでなく,リアルタイムに動作することを示す。
- 参考スコア(独自算出の注目度): 4.02235104503587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of point clouds is an essential task for understanding the environment in autonomous driving and robotics. Recent range-based works achieve real-time efficiency, while point- and voxel-based methods produce better results but are affected by high computational complexity. Moreover, highly complex deep learning models are often not suited to efficiently learn from small datasets. Their generalization capabilities can easily be driven by the abundance of data rather than the architecture design. In this paper, we harness the information from the three-dimensional representation to proficiently capture local features, while introducing the range image representation to incorporate additional information and facilitate fast computation. A GPU-based KDTree allows for rapid building, querying, and enhancing projection with straightforward operations. Extensive experiments on SemanticKITTI and nuScenes datasets demonstrate the benefits of our modification in a ``small data'' setup, in which only one sequence of the dataset is used to train the models, but also in the conventional setup, where all sequences except one are used for training. We show that a reduced version of our model not only demonstrates strong competitiveness against full-scale state-of-the-art models but also operates in real-time, making it a viable choice for real-world case applications. The code of our method is available at https://github.com/Bender97/WaffleAndRange.
- Abstract(参考訳): ポイントクラウドのセマンティックセグメンテーションは、自律運転とロボット工学の環境を理解する上で不可欠なタスクである。
近年のレンジベース研究はリアルタイムな効率性を実現しているが、ポイントベースとボクセルベースの手法はより良い結果をもたらすが、計算の複雑さに影響される。
さらに、非常に複雑なディープラーニングモデルは、小さなデータセットから効率的に学習するのに適していないことが多い。
それらの一般化能力は、アーキテクチャ設計よりも大量のデータによって容易に駆動できる。
本稿では,3次元の表現から得られる情報を利用して局所的な特徴を巧みに捉えるとともに,範囲画像表現を導入して付加情報を取り入れ,高速な計算を容易にする。
GPUベースのKDTreeは、素早いビルド、クエリ、プロジェクションの強化を、簡単な操作で実現している。
SemanticKITTIとnuScenesデータセットに関する大規模な実験は、データセットの1つのシーケンスのみを使用してモデルをトレーニングする‘小さなデータ’セットアップにおいて、私たちの修正のメリットを実証している。
我々のモデルの縮小バージョンは、本格的な最先端モデルに対する強力な競争力を示すだけでなく、リアルタイムに動作できることを示し、現実のケースアプリケーションにとって実行可能な選択肢である。
私たちのメソッドのコードはhttps://github.com/Bender97/WaffleAndRange.orgで公開されています。
関連論文リスト
- Scaling Up Diffusion and Flow-based XGBoost Models [5.944645679491607]
本稿では,XGBoostを拡散・流れマッチングモデルにおける関数近似器として利用するための最近の提案について検討する。
より優れた実装では、以前よりも370倍大きなデータセットにスケールできる。
我々は,Fast Calorimeter Simulation Challengeの一環として,大規模科学的データセットについて報告する。
論文 参考訳(メタデータ) (2024-08-28T18:00:00Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z) - Revisiting Point Cloud Simplification: A Learnable Feature Preserving
Approach [57.67932970472768]
MeshとPoint Cloudの単純化手法は、3Dモデルの複雑さを低減しつつ、視覚的品質と関連する健全な機能を維持することを目的としている。
そこで本研究では,正解点の標本化を学習し,高速点雲の簡易化手法を提案する。
提案手法は、入力空間から任意のユーザ定義の点数を選択し、視覚的知覚誤差を最小限に抑えるために、その位置を再配置するよう訓練されたグラフニューラルネットワークアーキテクチャに依存する。
論文 参考訳(メタデータ) (2021-09-30T10:23:55Z) - Transformer-Based Behavioral Representation Learning Enables Transfer
Learning for Mobile Sensing in Small Datasets [4.276883061502341]
時系列から一般化可能な特徴表現を学習できるモバイルセンシングデータのためのニューラルネットワークフレームワークを提供する。
このアーキテクチャは、CNNとTrans-formerアーキテクチャの利点を組み合わせて、より良い予測性能を実現する。
論文 参考訳(メタデータ) (2021-07-09T22:26:50Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Fast local linear regression with anchor regularization [21.739281173516247]
高速アンカー正規化局所線形法(FALL)と呼ばれる,単純で効果的な局所モデルトレーニングアルゴリズムを提案する。
合成および実世界のデータセットの実験を通じて、FALLは最先端のネットワークLassoアルゴリズムと精度の面で好適に比較できることを示した。
論文 参考訳(メタデータ) (2020-02-21T10:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。