論文の概要: SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction
Transformers trained under memory constraints
- arxiv url: http://arxiv.org/abs/2311.11371v1
- Date: Sun, 19 Nov 2023 16:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:45:24.902513
- Title: SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction
Transformers trained under memory constraints
- Title(参考訳): SOccDPT: メモリ制約下で訓練された高密度予測変換器からの半教師付き3次元セマンティック動作
- Authors: Aditya Nalgunda Ganesh
- Abstract要約: 我々は高密度な予測変換器を用いた単眼画像からの3次元セマンティック占有予測のためのメモリ効率のよいSOccDPTを提案する。
我々の半教師付きトレーニングパイプラインにより、SOccDPTは限られたラベルを持つデータセットから学習することができる。
パッチワイズトレーニングを導入し、各エポックをトレーニングするパラメータのサブセットを選択し、オートグレードグラフ構築時のメモリ使用量を削減する。
構造化されていないトラフィックとメモリ制約のあるトレーニングと推論のコンテキストにおいて、SOccDPTは既存の格差推定アプローチより優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SOccDPT, a memory-efficient approach for 3D semantic occupancy
prediction from monocular image input using dense prediction transformers. To
address the limitations of existing methods trained on structured traffic
datasets, we train our model on unstructured datasets including the Indian
Driving Dataset and Bengaluru Driving Dataset. Our semi-supervised training
pipeline allows SOccDPT to learn from datasets with limited labels by reducing
the requirement for manual labelling by substituting it with pseudo-ground
truth labels to produce our Bengaluru Semantic Occupancy Dataset. This broader
training enhances our model's ability to handle unstructured traffic scenarios
effectively. To overcome memory limitations during training, we introduce
patch-wise training where we select a subset of parameters to train each epoch,
reducing memory usage during auto-grad graph construction. In the context of
unstructured traffic and memory-constrained training and inference, SOccDPT
outperforms existing disparity estimation approaches as shown by the RMSE score
of 9.1473, achieves a semantic segmentation IoU score of 46.02% and operates at
a competitive frequency of 69.47 Hz. We make our code and semantic occupancy
dataset public.
- Abstract(参考訳): 我々は高密度な予測変換器を用いた単眼画像からの3次元意味占有予測のためのメモリ効率のよいSOccDPTを提案する。
構造化トラヒックデータセットでトレーニングされた既存のメソッドの制限に対処するために、インド駆動データセットやベンガルー駆動データセットを含む非構造化データセットでモデルをトレーニングします。
半教師付きトレーニングパイプラインにより,socdptは限定ラベル付きデータセットから学習でき,擬似基底真理ラベルを代入することで,手作業によるラベリングの必要性を低減し,bengaluruセマンティック占有データセットを作成できる。
この広範なトレーニングにより、非構造化トラフィックシナリオを効果的に処理できるモデルの能力が向上します。
トレーニング中のメモリ制限を克服するために,各エポックをトレーニングするパラメータのサブセットを選択するパッチワイズトレーニングを導入し,自動グレードグラフ構築時のメモリ使用量を削減する。
構造化されていないトラフィックとメモリ制約のあるトレーニングと推論の文脈において、SOccDPTはRMSEの9.1473のスコアで示されるような既存の格差推定手法より優れており、セマンティックセグメンテーションIoUのスコアは46.02%に達し、競争周波数は69.47Hzである。
コードとセマンティック占有率データセットを公開します。
関連論文リスト
- Knowledge-aware Graph Transformer for Pedestrian Trajectory Prediction [15.454206825258169]
歩行者運動軌跡の予測は、自動運転車の経路計画と移動制御に不可欠である。
近年の深層学習に基づく予測手法は、主に軌跡履歴や歩行者間の相互作用などの情報を利用する。
本稿では,予測性能を向上させるためのグラフトランス構造を提案する。
論文 参考訳(メタデータ) (2024-01-10T01:50:29Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [64.16991399882477]
我々は,データ可用性の制限の下で一般的な軌道予測表現を学習することの課題に取り組むことを目的としている。
我々はHD-mapのグラフ表現を利用し、ベクトル変換を適用して地図を再構成する。
我々は、拡張シーンに基づく軌道を生成するためにルールベースのモデルを用いる。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Less is More: Reducing Task and Model Complexity for 3D Point Cloud
Semantic Segmentation [26.94284739177754]
新しいパイプラインは、より優れたセグメンテーション精度を達成するために、より少ない地平線アノテーションを必要とする。
Sparse Depthwise Separable Convolutionモジュールは、ネットワークパラメータ数を著しく削減する。
新しいspatio-Temporal Redundant Frame Downsampling (ST-RFD) 法は、トレーニングデータフレームのより多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2023-03-20T15:36:10Z) - Semantic-Fused Multi-Granularity Cross-City Traffic Prediction [17.020546413647708]
本研究では,異なる粒度で融合した意味を持つ都市間における知識伝達を実現するためのセマンティック・フューズド・マルチグラニュラリティ・トランスファー・ラーニング・モデルを提案する。
本稿では,静的な空間依存を保ちながら,様々な意味を融合する意味融合モジュールを設計する。
STLモデルの有効性を検証するため、6つの実世界のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-23T04:26:34Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - PreTraM: Self-Supervised Pre-training via Connecting Trajectory and Map [58.53373202647576]
軌道予測のための自己教師付き事前学習方式であるPreTraMを提案する。
1) トラジェクティブ・マップ・コントラクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)の2つのパートから構成される。
AgentFormerやTrajectron++といった一般的なベースラインに加えて、PreTraMは、挑戦的なnuScenesデータセット上で、FDE-10でパフォーマンスを5.5%と6.9%向上させる。
論文 参考訳(メタデータ) (2022-04-21T23:01:21Z) - Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。
提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。
我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文 参考訳(メタデータ) (2022-03-21T17:59:40Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。