Fugu-MT 論文翻訳(概要): S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally coherent 3D Semantic Occupancy Prediction

論文の概要: S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally coherent 3D Semantic Occupancy Prediction

arxiv url: http://arxiv.org/abs/2401.13785v1
Date: Wed, 24 Jan 2024 20:06:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 16:39:33.714423
Title: S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally coherent 3D Semantic Occupancy Prediction
Title（参考訳）: S2TPVFormer : 時間的コヒーレントな3次元セマンティック動作予測のための時空間三点視点
Authors: Sathira Silva, Savindu Bhashitha Wannigama, Roshan Ragel, Gihan Jayatilaka
Abstract要約: 既存のアプローチは主に空間的手がかりに焦点を当てており、しばしば時間的手がかりを見下ろしている。本研究では,Tri-Perspective View (TPV)表現の拡張であるS2TPVFormerを紹介する。我々の研究は、特に3Dシーンの知覚において、時間的手がかりの探索の少ない領域を探索する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Holistic understanding and reasoning in 3D scenes play a vital role in the success of autonomous driving systems. The evolution of 3D semantic occupancy prediction as a pretraining task for autonomous driving and robotic downstream tasks captures finer 3D details compared to methods like 3D detection. Existing approaches predominantly focus on spatial cues, often overlooking temporal cues. Query-based methods tend to converge on computationally intensive Voxel representation for encoding 3D scene information. This study introduces S2TPVFormer, an extension of TPVFormer, utilizing a spatiotemporal transformer architecture for coherent 3D semantic occupancy prediction. Emphasizing the importance of spatiotemporal cues in 3D scene perception, particularly in 3D semantic occupancy prediction, our work explores the less-explored realm of temporal cues. Leveraging Tri-Perspective View (TPV) representation, our spatiotemporal encoder generates temporally rich embeddings, improving prediction coherence while maintaining computational efficiency. To achieve this, we propose a novel Temporal Cross-View Hybrid Attention (TCVHA) mechanism, facilitating effective spatiotemporal information exchange across TPV views. Experimental evaluations on the nuScenes dataset demonstrate a substantial 3.1% improvement in mean Intersection over Union (mIoU) for 3D Semantic Occupancy compared to TPVFormer, confirming the effectiveness of the proposed S2TPVFormer in enhancing 3D scene perception.
Abstract（参考訳）: 3Dシーンにおける全体的理解と推論は、自律運転システムの成功に重要な役割を果たす。自律運転とロボット下流タスクの事前学習タスクとしての3dセマンティック占有予測の進化は、3d検出のような方法と比較してより詳細な3dディテールをキャプチャする。既存のアプローチは主に空間的手がかりに焦点を当てており、しばしば時間的手がかりを見下ろしている。クエリベースの手法は、3dシーン情報をエンコードするために計算集約的なvoxel表現に収束する傾向がある。本研究では,TPVFormerの拡張であるS2TPVFormerを紹介した。本研究では,3次元シーン知覚における時空間的手がかりの重要性,特に3次元意味的占有率予測の重要性を強調する。トリオパースペクティブビュー(TPV)表現を活用することで、時空間エンコーダは時間的に豊かな埋め込みを生成し、計算効率を維持しながら予測コヒーレンスを向上させる。そこで本研究では,TPVビュー間の効果的な時空間情報交換を容易にする,時間的クロスビューハイブリッドアテンション(TCVHA)機構を提案する。 nuscenesデータセットの実験的評価は、tpvformerと比較して、3d意味的占有に対する平均交叉率(miou)が3.1%向上していることを示し、提案するs2tpvformerが3dシーン知覚の強化に有効であることを確認した。

関連論文リスト

One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion [3.664655957801223]
現実世界の交通シナリオでは、視覚的な3Dシーンのかなりの部分は、カメラの視野の外側に留まっている。本稿では、擬似未来フレーム予測を利用して、モデルの有効性を拡大する新しい時間的SSCフレームワークであるCreating the Future SSCを提案する。提案手法は、ポーズと深さを組み合わせて正確な3次元対応を確立し、3次元空間における過去、現在、予測される将来のフレームの幾何学的に一貫性のある融合を可能にする。
論文参考訳（メタデータ） (2025-07-18T10:24:58Z)
EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文参考訳（メタデータ） (2025-03-14T13:15:54Z)
H3O: Hyper-Efficient 3D Occupancy Prediction with Heterogeneous Supervision [41.529084775662355]
本稿では3次元占有予測手法であるH3Oを提案する。H3Oは高効率なアーキテクチャ設計を特徴とし,現在の最先端手法と比較して計算コストを大幅に削減する。特に, マルチカメラ深度推定, セマンティックセグメンテーション, および表面正規推定を, 対応する2次元ラベルで教師する可変ボリュームレンダリングにより統合する。
論文参考訳（メタデータ） (2025-03-06T03:27:14Z)
VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。画像のみを監督として多視点表現を再構築する。これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2024-11-22T03:59:41Z)
FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。 FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。 Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文参考訳（メタデータ） (2024-03-05T07:01:53Z)
OccFlowNet: Towards Self-supervised Occupancy Estimation via Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文参考訳（メタデータ） (2024-02-20T08:04:12Z)
Visual Point Cloud Forecasting enables Scalable Autonomous Driving [28.376086570498952]
視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
論文参考訳（メタデータ） (2023-12-29T15:44:13Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文参考訳（メタデータ） (2023-07-17T04:55:02Z)
Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。 3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文参考訳（メタデータ） (2023-02-15T17:58:10Z)
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文参考訳（メタデータ） (2022-07-15T16:57:43Z)
On Triangulation as a Form of Self-Supervision for 3D Human Pose Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文参考訳（メタデータ） (2022-03-29T19:11:54Z)
Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。 STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文参考訳（メタデータ） (2021-09-01T04:17:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。