Fugu-MT 論文翻訳(概要): SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction Transformers trained under memory constraints

論文の概要: SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction Transformers trained under memory constraints

arxiv url: http://arxiv.org/abs/2311.11371v1
Date: Sun, 19 Nov 2023 16:47:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 20:45:24.902513
Title: SOccDPT: Semi-Supervised 3D Semantic Occupancy from Dense Prediction Transformers trained under memory constraints
Title（参考訳）: SOccDPT: メモリ制約下で訓練された高密度予測変換器からの半教師付き3次元セマンティック動作
Authors: Aditya Nalgunda Ganesh
Abstract要約: 我々は高密度な予測変換器を用いた単眼画像からの3次元セマンティック占有予測のためのメモリ効率のよいSOccDPTを提案する。我々の半教師付きトレーニングパイプラインにより、SOccDPTは限られたラベルを持つデータセットから学習することができる。パッチワイズトレーニングを導入し、各エポックをトレーニングするパラメータのサブセットを選択し、オートグレードグラフ構築時のメモリ使用量を削減する。構造化されていないトラフィックとメモリ制約のあるトレーニングと推論のコンテキストにおいて、SOccDPTは既存の格差推定アプローチより優れている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present SOccDPT, a memory-efficient approach for 3D semantic occupancy prediction from monocular image input using dense prediction transformers. To address the limitations of existing methods trained on structured traffic datasets, we train our model on unstructured datasets including the Indian Driving Dataset and Bengaluru Driving Dataset. Our semi-supervised training pipeline allows SOccDPT to learn from datasets with limited labels by reducing the requirement for manual labelling by substituting it with pseudo-ground truth labels to produce our Bengaluru Semantic Occupancy Dataset. This broader training enhances our model's ability to handle unstructured traffic scenarios effectively. To overcome memory limitations during training, we introduce patch-wise training where we select a subset of parameters to train each epoch, reducing memory usage during auto-grad graph construction. In the context of unstructured traffic and memory-constrained training and inference, SOccDPT outperforms existing disparity estimation approaches as shown by the RMSE score of 9.1473, achieves a semantic segmentation IoU score of 46.02% and operates at a competitive frequency of 69.47 Hz. We make our code and semantic occupancy dataset public.
Abstract（参考訳）: 我々は高密度な予測変換器を用いた単眼画像からの3次元意味占有予測のためのメモリ効率のよいSOccDPTを提案する。構造化トラヒックデータセットでトレーニングされた既存のメソッドの制限に対処するために、インド駆動データセットやベンガルー駆動データセットを含む非構造化データセットでモデルをトレーニングします。半教師付きトレーニングパイプラインにより,socdptは限定ラベル付きデータセットから学習でき,擬似基底真理ラベルを代入することで,手作業によるラベリングの必要性を低減し,bengaluruセマンティック占有データセットを作成できる。この広範なトレーニングにより、非構造化トラフィックシナリオを効果的に処理できるモデルの能力が向上します。トレーニング中のメモリ制限を克服するために,各エポックをトレーニングするパラメータのサブセットを選択するパッチワイズトレーニングを導入し,自動グレードグラフ構築時のメモリ使用量を削減する。構造化されていないトラフィックとメモリ制約のあるトレーニングと推論の文脈において、SOccDPTはRMSEの9.1473のスコアで示されるような既存の格差推定手法より優れており、セマンティックセグメンテーションIoUのスコアは46.02%に達し、競争周波数は69.47Hzである。コードとセマンティック占有率データセットを公開します。

関連論文リスト

BERT4Traj: Transformer Based Trajectory Reconstruction for Sparse Mobility Data [33.509692801580464]
BERT4Trajは、スパース運動列の隠れた訪問を予測することで、完全な移動軌道を再構築するトランスフォーマーベースモデルである。ウガンダのカンパラで収集された実世界のCDRとGPSデータに基づいてBERT4Trajを評価した。
論文参考訳（メタデータ） (2025-07-03T16:39:17Z)
Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文参考訳（メタデータ） (2025-04-06T03:23:48Z)
MinkOcc: Towards real-time label-efficient semantic occupancy prediction [8.239334282982623]
MinkOccはカメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークである。競争精度を維持しつつ、手動ラベリングへの依存を90%削減する。我々は、MinkOccをキュレートされたデータセットを超えて拡張することを目指しており、自動運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にしている。
論文参考訳（メタデータ） (2025-04-03T04:31:56Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Optimizing against Infeasible Inclusions from Data for Semantic Segmentation through Morphology [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。 InSeInは、手元に設定されたセグメンテーショントレーニングから空間クラス関係を規定する明示的な包含制約を抽出する。そして、予測可能性を促進するために、トレーニング中にこれらの制約の違反を罰する形態的だが差別的な損失を強制する。
論文参考訳（メタデータ） (2024-08-26T22:39:08Z)
Test-time adaptation for geospatial point cloud semantic segmentation with distinct domain shifts [6.80671668491958]
テスト時間適応(TTA)は、ソースデータへのアクセスや追加のトレーニングなしに、推論段階でラベル付けされていないデータに事前訓練されたモデルの直接適応を可能にする。本稿では,3つの領域シフトパラダイムを提案する。光グラムから空気中LiDAR,空気中LiDAR,合成-移動レーザー走査である。実験の結果,分類精度は最大20%mIoUに向上し,他の手法よりも優れていた。
論文参考訳（メタデータ） (2024-07-08T15:40:28Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文参考訳（メタデータ） (2023-09-18T19:49:22Z)
Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文参考訳（メタデータ） (2022-11-25T09:31:41Z)
PreTraM: Self-Supervised Pre-training via Connecting Trajectory and Map [58.53373202647576]
軌道予測のための自己教師付き事前学習方式であるPreTraMを提案する。 1) トラジェクティブ・マップ・コントラクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・コントラクティブ・ラーニング)、(2) トラジェクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)、(2) トラジェクティブ・コントラクティブ・ラーニング(トラジェクティブ・ラーニング)の2つのパートから構成される。 AgentFormerやTrajectron++といった一般的なベースラインに加えて、PreTraMは、挑戦的なnuScenesデータセット上で、FDE-10でパフォーマンスを5.5%と6.9%向上させる。
論文参考訳（メタデータ） (2022-04-21T23:01:21Z)
Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文参考訳（メタデータ） (2022-03-21T17:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。