論文の概要: S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally
coherent 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2401.13785v1
- Date: Wed, 24 Jan 2024 20:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:39:33.714423
- Title: S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally
coherent 3D Semantic Occupancy Prediction
- Title(参考訳): S2TPVFormer : 時間的コヒーレントな3次元セマンティック動作予測のための時空間三点視点
- Authors: Sathira Silva, Savindu Bhashitha Wannigama, Roshan Ragel, Gihan
Jayatilaka
- Abstract要約: 既存のアプローチは主に空間的手がかりに焦点を当てており、しばしば時間的手がかりを見下ろしている。
本研究では,Tri-Perspective View (TPV)表現の拡張であるS2TPVFormerを紹介する。
我々の研究は、特に3Dシーンの知覚において、時間的手がかりの探索の少ない領域を探索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Holistic understanding and reasoning in 3D scenes play a vital role in the
success of autonomous driving systems. The evolution of 3D semantic occupancy
prediction as a pretraining task for autonomous driving and robotic downstream
tasks captures finer 3D details compared to methods like 3D detection. Existing
approaches predominantly focus on spatial cues, often overlooking temporal
cues. Query-based methods tend to converge on computationally intensive Voxel
representation for encoding 3D scene information. This study introduces
S2TPVFormer, an extension of TPVFormer, utilizing a spatiotemporal transformer
architecture for coherent 3D semantic occupancy prediction. Emphasizing the
importance of spatiotemporal cues in 3D scene perception, particularly in 3D
semantic occupancy prediction, our work explores the less-explored realm of
temporal cues. Leveraging Tri-Perspective View (TPV) representation, our
spatiotemporal encoder generates temporally rich embeddings, improving
prediction coherence while maintaining computational efficiency. To achieve
this, we propose a novel Temporal Cross-View Hybrid Attention (TCVHA)
mechanism, facilitating effective spatiotemporal information exchange across
TPV views. Experimental evaluations on the nuScenes dataset demonstrate a
substantial 3.1% improvement in mean Intersection over Union (mIoU) for 3D
Semantic Occupancy compared to TPVFormer, confirming the effectiveness of the
proposed S2TPVFormer in enhancing 3D scene perception.
- Abstract(参考訳): 3Dシーンにおける全体的理解と推論は、自律運転システムの成功に重要な役割を果たす。
自律運転とロボット下流タスクの事前学習タスクとしての3dセマンティック占有予測の進化は、3d検出のような方法と比較してより詳細な3dディテールをキャプチャする。
既存のアプローチは主に空間的手がかりに焦点を当てており、しばしば時間的手がかりを見下ろしている。
クエリベースの手法は、3dシーン情報をエンコードするために計算集約的なvoxel表現に収束する傾向がある。
本研究では,TPVFormerの拡張であるS2TPVFormerを紹介した。
本研究では,3次元シーン知覚における時空間的手がかりの重要性,特に3次元意味的占有率予測の重要性を強調する。
トリオパースペクティブビュー(TPV)表現を活用することで、時空間エンコーダは時間的に豊かな埋め込みを生成し、計算効率を維持しながら予測コヒーレンスを向上させる。
そこで本研究では,TPVビュー間の効果的な時空間情報交換を容易にする,時間的クロスビューハイブリッドアテンション(TCVHA)機構を提案する。
nuscenesデータセットの実験的評価は、tpvformerと比較して、3d意味的占有に対する平均交叉率(miou)が3.1%向上していることを示し、提案するs2tpvformerが3dシーン知覚の強化に有効であることを確認した。
関連論文リスト
- FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。