Fugu-MT 論文翻訳(概要): ET-Former: Efficient Triplane Deformable Attention for 3D Semantic Scene Completion From Monocular Camera

論文の概要: ET-Former: Efficient Triplane Deformable Attention for 3D Semantic Scene Completion From Monocular Camera

arxiv url: http://arxiv.org/abs/2410.11019v1
Date: Mon, 14 Oct 2024 19:14:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.444698
Title: ET-Former: Efficient Triplane Deformable Attention for 3D Semantic Scene Completion From Monocular Camera
Title（参考訳）: ET-Former: モノクロカメラによる3次元シーンコンプリートのための効率的な三面体変形型アテンション
Authors: Jing Liang, He Yin, Xuewei Qi, Jong Jin Park, Min Sun, Rajasimman Madhivanan, Dinesh Manocha,
Abstract要約: 本稿では,単一単眼カメラを用いたセマンティックシーン補完のための新しいエンドツーエンドアルゴリズムET-Formerを紹介する。本手法は,単一のRGB観測からセマンティック占有マップを生成すると同時に,セマンティック予測のための不確実性推定を行う。
参考スコア（独自算出の注目度）: 53.20087549782785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce ET-Former, a novel end-to-end algorithm for semantic scene completion using a single monocular camera. Our approach generates a semantic occupancy map from single RGB observation while simultaneously providing uncertainty estimates for semantic predictions. By designing a triplane-based deformable attention mechanism, our approach improves geometric understanding of the scene than other SOTA approaches and reduces noise in semantic predictions. Additionally, through the use of a Conditional Variational AutoEncoder (CVAE), we estimate the uncertainties of these predictions. The generated semantic and uncertainty maps will aid in the formulation of navigation strategies that facilitate safe and permissible decision-making in the future. Evaluated on the Semantic-KITTI dataset, ET-Former achieves the highest IoU and mIoU, surpassing other methods by 15.16% in IoU and 24.24% in mIoU, while reducing GPU memory usage of existing methods by 25%-50.5%.
Abstract（参考訳）: 本稿では,単一単眼カメラを用いたセマンティックシーン補完のための新しいエンドツーエンドアルゴリズムET-Formerを紹介する。本手法は,単一のRGB観測からセマンティック占有マップを生成すると同時に,セマンティック予測のための不確実性推定を行う。本手法は,三面体をベースとした変形可能なアテンション機構を設計することにより,他のSOTA手法よりもシーンの幾何学的理解を向上し,意味的予測におけるノイズを低減する。さらに,条件付き変分オートエンコーダ(CVAE)を用いて,これらの予測の不確かさを推定する。生成されたセマンティックマップと不確実性マップは、将来安全かつ許容可能な意思決定を促進するナビゲーション戦略の定式化に役立つだろう。 Semantic-KITTIデータセットに基づいて評価され、ET-FormerはIoUとmIoUの最高値に達し、他のメソッドを15.16%、mIoUの24.24%、既存のメソッドのGPUメモリ使用量を25%から50.5%削減した。

関連論文リスト

MetaOcc: Surround-View 4D Radar and Camera Fusion Framework for 3D Occupancy Prediction with Dual Training Strategies [10.662778683303726]
本稿では,新しいマルチモーダル占有予測フレームワークであるMetaOccを提案する。我々はまず,スパースレーダ点からの有効3次元特徴抽出のための高さ自己注意モジュールを設計する。最後に,擬似ラベル生成のためのオープンセットセグメンタと幾何学的制約を利用した半教師付きトレーニング手法を開発した。
論文参考訳（メタデータ） (2025-01-26T03:51:56Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Context-Conditioned Spatio-Temporal Predictive Learning for Reliable V2V Channel Prediction [25.688521281119037]
下流タスクの最適化には,V2Vチャネル状態情報(CSI)予測が不可欠である。従来の予測手法は、時間、帯域幅、アンテナ(TX、RX)空間の予測を含む4次元(4D)CSIに重点を置いている。本研究では,4次元CSIデータ内の依存関係をキャプチャするコンテキスト条件付き時間予測学習手法を提案する。
論文参考訳（メタデータ） (2024-09-16T04:15:36Z)
One Homography is All You Need: IMM-based Joint Homography and Multiple Object State Estimation [2.09942566943801]
IMMジョイントホモグラフィー状態推定(IMM-JHSE)を提案する。 IMM-JHSEは、唯一の付加的な3D情報として初期ホモグラフィー推定を使用する。 IMM-JHSEは、MOT17、MOT20、KITTI-carデータセット上での競合性能を提供する。
論文参考訳（メタデータ） (2024-09-04T09:29:24Z)
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [45.886941596233974]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。提案するフレームワークは、生成アーキテクチャの潜在空間においてL-OGM予測を行う。我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードする。
論文参考訳（メタデータ） (2024-07-30T18:37:59Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。 SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文参考訳（メタデータ） (2023-12-10T04:17:27Z)
Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文参考訳（メタデータ） (2023-11-30T18:59:44Z)
Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文参考訳（メタデータ） (2023-09-26T08:03:10Z)
Real-time 3D Semantic Scene Completion Via Feature Aggregation and Conditioned Prediction [17.54862035445157]
本稿では,特徴集約戦略と条件付き予測モジュールを用いたリアルタイムなセマンティックシーン補完手法を提案する。提案手法は,GTX 1080 Tiの1つのGPU上で110FPSの速度で競合性能を実現する。
論文参考訳（メタデータ） (2023-03-20T09:41:50Z)
SoK: Vehicle Orientation Representations for Deep Rotation Estimation [2.052323405257355]
KITTIの3Dオブジェクト検出データセットを用いて,既存の配向表現の精度について検討した。配向表現の新しい形式としてトリコシンを提案する。
論文参考訳（メタデータ） (2021-12-08T17:12:54Z)
Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文参考訳（メタデータ） (2021-08-12T15:22:33Z)
CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2020-12-18T09:42:54Z)
3D IoU-Net: IoU Guided 3D Object Detector for Point Clouds [68.44740333471792]
正規分類と回帰分岐に3D IoU予測分岐を付加する。我々は,IoU感度特徴学習とIoUアライメント操作を併用した3次元IoU-Netを提案する。 KITTIカー検出ベンチマークの実験結果から,IoU知覚による3次元IoU-Netが最先端性能を実現することが示された。
論文参考訳（メタデータ） (2020-04-10T09:24:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。