論文の概要: Text3DAug -- Prompted Instance Augmentation for LiDAR Perception
- arxiv url: http://arxiv.org/abs/2408.14253v1
- Date: Mon, 26 Aug 2024 13:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:51:27.192395
- Title: Text3DAug -- Prompted Instance Augmentation for LiDAR Perception
- Title(参考訳): Text3DAug -- LiDARの認識のためのインスタンス拡張のプロンプト
- Authors: Laurenz Reichardt, Luca Uhr, Oliver Wasenmüller,
- Abstract要約: 都市シナリオのLiDARデータは、異種特性や固有のクラス不均衡など、ユニークな課題を提起する。
生成モデルを利用した新しいアプローチであるText3DAugを提案する。
Text3DAugはラベル付きデータに依存しておらず、テキストからインスタンスやアノテーションを生成する最初のタイプである。
- 参考スコア(独自算出の注目度): 1.1633929083694388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LiDAR data of urban scenarios poses unique challenges, such as heterogeneous characteristics and inherent class imbalance. Therefore, large-scale datasets are necessary to apply deep learning methods. Instance augmentation has emerged as an efficient method to increase dataset diversity. However, current methods require the time-consuming curation of 3D models or costly manual data annotation. To overcome these limitations, we propose Text3DAug, a novel approach leveraging generative models for instance augmentation. Text3DAug does not depend on labeled data and is the first of its kind to generate instances and annotations from text. This allows for a fully automated pipeline, eliminating the need for manual effort in practical applications. Additionally, Text3DAug is sensor agnostic and can be applied regardless of the LiDAR sensor used. Comprehensive experimental analysis on LiDAR segmentation, detection and novel class discovery demonstrates that Text3DAug is effective in supplementing existing methods or as a standalone method, performing on par or better than established methods, however while overcoming their specific drawbacks. The code is publicly available.
- Abstract(参考訳): 都市シナリオのLiDARデータは、異種特性や固有のクラス不均衡など、ユニークな課題を提起する。
したがって、ディープラーニング手法を適用するには大規模なデータセットが必要である。
データセットの多様性を高めるための効率的な方法として、インスタンス拡張が登場した。
しかし、現在の手法では、3Dモデルの時間を要するキュレーションや、高価な手作業によるデータアノテーションが必要である。
このような制約を克服するために,生成モデルを利用した新しいアプローチであるText3DAugを提案する。
Text3DAugはラベル付きデータに依存しておらず、テキストからインスタンスやアノテーションを生成する最初のタイプである。
これにより、完全に自動化されたパイプラインが可能になり、実用的なアプリケーションで手作業の必要がなくなる。
さらに、Text3DAugはセンサー非依存であり、使用するLiDARセンサーに関係なく適用することができる。
LiDARのセグメンテーション、検出、新しいクラス発見に関する総合的な実験的分析は、Text3DAugが既存のメソッドやスタンドアロンメソッドを補うのに有効であることを示した。
コードは公開されている。
関連論文リスト
- TeFF: Tracking-enhanced Forgetting-free Few-shot 3D LiDAR Semantic Segmentation [10.628870775939161]
本稿では,LiDARデータの時間的連続性を利用して,現在の数ショットセマンティックセマンティックセマンティクスの限界に対処する。
追跡モデルを用いて、LiDARフレームのシーケンスから擬似地下構造を生成し、新しいクラスで学習するデータセットの能力を向上する。
トレーニング可能なパラメータの数を減らし,新しいクラスへの適応性を向上しつつ,ベースクラス上でのモデル性能を保留するテクニックであるLoRAを取り入れた。
論文 参考訳(メタデータ) (2024-08-28T09:18:36Z) - Refining the ONCE Benchmark with Hyperparameter Tuning [45.55545585587993]
本研究は、ポイントクラウドデータに対する半教師付き学習アプローチの評価に焦点を当てる。
データアノテーションは、LiDARアプリケーションのコンテキストにおいて最も重要である。
従来の半教師付き手法による改善は,従来考えられていたほど深くない可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-10T13:39:07Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - 360$^\circ$ from a Single Camera: A Few-Shot Approach for LiDAR
Segmentation [0.0]
LiDARデータのディープラーニングアプリケーションは、異なるセンサーやタスクに適用する場合、強いドメインギャップに悩まされる。
実用的なアプリケーションでは、ラベル付きデータはコストがかかり、取得に時間がかかる。
我々は、ラベル効率のよいLiDARセグメンテーションに対する効果的で合理化された数ショットアプローチであるImageTo360を提案する。
論文 参考訳(メタデータ) (2023-09-12T13:04:41Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - Context-Aware Data Augmentation for LIDAR 3D Object Detection [4.084927826063192]
GTサンプルは、トレーニング中にライダーフレームに接地構造を挿入することにより、検出性能を効果的に向上する。
これらのサンプルは、しばしば不合理な領域に配置され、ターゲットと背景の間の間違ったコンテキスト情報を学ぶために、モデルを誤解させる。
本研究では,挿入対象の適切な配置を保証する文脈認識型データ拡張手法(CA-aug)を提案する。
論文 参考訳(メタデータ) (2022-11-20T02:45:18Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Bridging the Reality Gap for Pose Estimation Networks using Sensor-Based
Domain Randomization [1.4290119665435117]
合成データに基づいて訓練された手法は、2Dの領域ランダム化をより発展させるため、2D画像を使用する。
提案手法では,3次元データをネットワークに統合し,ポーズ推定の精度を高める。
3つの大規模ポーズ推定ベンチマーク実験により, 提案手法は, 合成データを用いた従来手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2020-11-17T09:12:11Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。