論文の概要: SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction
Transformers trained under memory constraints
- arxiv url: http://arxiv.org/abs/2311.11371v1
- Date: Sun, 19 Nov 2023 16:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:45:24.902513
- Title: SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction
Transformers trained under memory constraints
- Title(参考訳): SOccDPT: メモリ制約下で訓練された高密度予測変換器からの半教師付き3次元セマンティック動作
- Authors: Aditya Nalgunda Ganesh
- Abstract要約: 我々は高密度な予測変換器を用いた単眼画像からの3次元セマンティック占有予測のためのメモリ効率のよいSOccDPTを提案する。
我々の半教師付きトレーニングパイプラインにより、SOccDPTは限られたラベルを持つデータセットから学習することができる。
パッチワイズトレーニングを導入し、各エポックをトレーニングするパラメータのサブセットを選択し、オートグレードグラフ構築時のメモリ使用量を削減する。
構造化されていないトラフィックとメモリ制約のあるトレーニングと推論のコンテキストにおいて、SOccDPTは既存の格差推定アプローチより優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SOccDPT, a memory-efficient approach for 3D semantic occupancy
prediction from monocular image input using dense prediction transformers. To
address the limitations of existing methods trained on structured traffic
datasets, we train our model on unstructured datasets including the Indian
Driving Dataset and Bengaluru Driving Dataset. Our semi-supervised training
pipeline allows SOccDPT to learn from datasets with limited labels by reducing
the requirement for manual labelling by substituting it with pseudo-ground
truth labels to produce our Bengaluru Semantic Occupancy Dataset. This broader
training enhances our model's ability to handle unstructured traffic scenarios
effectively. To overcome memory limitations during training, we introduce
patch-wise training where we select a subset of parameters to train each epoch,
reducing memory usage during auto-grad graph construction. In the context of
unstructured traffic and memory-constrained training and inference, SOccDPT
outperforms existing disparity estimation approaches as shown by the RMSE score
of 9.1473, achieves a semantic segmentation IoU score of 46.02% and operates at
a competitive frequency of 69.47 Hz. We make our code and semantic occupancy
dataset public.
- Abstract(参考訳): 我々は高密度な予測変換器を用いた単眼画像からの3次元意味占有予測のためのメモリ効率のよいSOccDPTを提案する。
構造化トラヒックデータセットでトレーニングされた既存のメソッドの制限に対処するために、インド駆動データセットやベンガルー駆動データセットを含む非構造化データセットでモデルをトレーニングします。
半教師付きトレーニングパイプラインにより,socdptは限定ラベル付きデータセットから学習でき,擬似基底真理ラベルを代入することで,手作業によるラベリングの必要性を低減し,bengaluruセマンティック占有データセットを作成できる。
この広範なトレーニングにより、非構造化トラフィックシナリオを効果的に処理できるモデルの能力が向上します。
トレーニング中のメモリ制限を克服するために,各エポックをトレーニングするパラメータのサブセットを選択するパッチワイズトレーニングを導入し,自動グレードグラフ構築時のメモリ使用量を削減する。
構造化されていないトラフィックとメモリ制約のあるトレーニングと推論の文脈において、SOccDPTはRMSEの9.1473のスコアで示されるような既存の格差推定手法より優れており、セマンティックセグメンテーションIoUのスコアは46.02%に達し、競争周波数は69.47Hzである。
コードとセマンティック占有率データセットを公開します。
関連論文リスト
- OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Test-time adaptation for geospatial point cloud semantic segmentation with distinct domain shifts [6.80671668491958]
テスト時間適応(TTA)は、ソースデータへのアクセスや追加のトレーニングなしに、推論段階でラベル付けされていないデータに事前訓練されたモデルの直接適応を可能にする。
本稿では,3つの領域シフトパラダイムを提案する。光グラムから空気中LiDAR,空気中LiDAR,合成-移動レーザー走査である。
実験の結果,分類精度は最大20%mIoUに向上し,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-08T15:40:28Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - PreTraM: Self-Supervised Pre-training via Connecting Trajectory and Map [58.53373202647576]
軌道予測のための自己教師付き事前学習方式であるPreTraMを提案する。
1) トラジェクティブ・マップ・コントラクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)の2つのパートから構成される。
AgentFormerやTrajectron++といった一般的なベースラインに加えて、PreTraMは、挑戦的なnuScenesデータセット上で、FDE-10でパフォーマンスを5.5%と6.9%向上させる。
論文 参考訳(メタデータ) (2022-04-21T23:01:21Z) - Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。
提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。
我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文 参考訳(メタデータ) (2022-03-21T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。