論文の概要: S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally
coherent 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2401.13785v1
- Date: Wed, 24 Jan 2024 20:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:39:33.714423
- Title: S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally
coherent 3D Semantic Occupancy Prediction
- Title(参考訳): S2TPVFormer : 時間的コヒーレントな3次元セマンティック動作予測のための時空間三点視点
- Authors: Sathira Silva, Savindu Bhashitha Wannigama, Roshan Ragel, Gihan
Jayatilaka
- Abstract要約: 既存のアプローチは主に空間的手がかりに焦点を当てており、しばしば時間的手がかりを見下ろしている。
本研究では,Tri-Perspective View (TPV)表現の拡張であるS2TPVFormerを紹介する。
我々の研究は、特に3Dシーンの知覚において、時間的手がかりの探索の少ない領域を探索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Holistic understanding and reasoning in 3D scenes play a vital role in the
success of autonomous driving systems. The evolution of 3D semantic occupancy
prediction as a pretraining task for autonomous driving and robotic downstream
tasks captures finer 3D details compared to methods like 3D detection. Existing
approaches predominantly focus on spatial cues, often overlooking temporal
cues. Query-based methods tend to converge on computationally intensive Voxel
representation for encoding 3D scene information. This study introduces
S2TPVFormer, an extension of TPVFormer, utilizing a spatiotemporal transformer
architecture for coherent 3D semantic occupancy prediction. Emphasizing the
importance of spatiotemporal cues in 3D scene perception, particularly in 3D
semantic occupancy prediction, our work explores the less-explored realm of
temporal cues. Leveraging Tri-Perspective View (TPV) representation, our
spatiotemporal encoder generates temporally rich embeddings, improving
prediction coherence while maintaining computational efficiency. To achieve
this, we propose a novel Temporal Cross-View Hybrid Attention (TCVHA)
mechanism, facilitating effective spatiotemporal information exchange across
TPV views. Experimental evaluations on the nuScenes dataset demonstrate a
substantial 3.1% improvement in mean Intersection over Union (mIoU) for 3D
Semantic Occupancy compared to TPVFormer, confirming the effectiveness of the
proposed S2TPVFormer in enhancing 3D scene perception.
- Abstract(参考訳): 3Dシーンにおける全体的理解と推論は、自律運転システムの成功に重要な役割を果たす。
自律運転とロボット下流タスクの事前学習タスクとしての3dセマンティック占有予測の進化は、3d検出のような方法と比較してより詳細な3dディテールをキャプチャする。
既存のアプローチは主に空間的手がかりに焦点を当てており、しばしば時間的手がかりを見下ろしている。
クエリベースの手法は、3dシーン情報をエンコードするために計算集約的なvoxel表現に収束する傾向がある。
本研究では,TPVFormerの拡張であるS2TPVFormerを紹介した。
本研究では,3次元シーン知覚における時空間的手がかりの重要性,特に3次元意味的占有率予測の重要性を強調する。
トリオパースペクティブビュー(TPV)表現を活用することで、時空間エンコーダは時間的に豊かな埋め込みを生成し、計算効率を維持しながら予測コヒーレンスを向上させる。
そこで本研究では,TPVビュー間の効果的な時空間情報交換を容易にする,時間的クロスビューハイブリッドアテンション(TCVHA)機構を提案する。
nuscenesデータセットの実験的評価は、tpvformerと比較して、3d意味的占有に対する平均交叉率(miou)が3.1%向上していることを示し、提案するs2tpvformerが3dシーン知覚の強化に有効であることを確認した。
関連論文リスト
- VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - Visual Point Cloud Forecasting enables Scalable Autonomous Driving [28.376086570498952]
視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。
我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。
実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
論文 参考訳(メタデータ) (2023-12-29T15:44:13Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。