Fugu-MT 論文翻訳(概要): Omnidirectional Depth-Aided Occupancy Prediction based on Cylindrical Voxel for Autonomous Driving

論文の概要: Omnidirectional Depth-Aided Occupancy Prediction based on Cylindrical Voxel for Autonomous Driving

arxiv url: http://arxiv.org/abs/2504.01023v1
Date: Wed, 26 Mar 2025 00:07:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.100366
Title: Omnidirectional Depth-Aided Occupancy Prediction based on Cylindrical Voxel for Autonomous Driving
Title（参考訳）: 円筒ボクセルを用いた全方向深度支援運転予測
Authors: Chaofan Wu, Jiaheng Li, Jinghao Cao, Ming Li, Yongkang Feng, Jiayu Wu Shuwen Xu, Zihang Gao, Sidan Du, Yang Li,
Abstract要約: 事前導入には全方位深度推定を用いる。また、偏光座標に基づく円筒型ボクセル表現を導入し、パノラマカメラビューとの整合性を向上する。実験の結果,Sketch- Networkは3次元知覚性能を著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 7.3709535266926025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate 3D perception is essential for autonomous driving. Traditional methods often struggle with geometric ambiguity due to a lack of geometric prior. To address these challenges, we use omnidirectional depth estimation to introduce geometric prior. Based on the depth information, we propose a Sketch-Coloring framework OmniDepth-Occ. Additionally, our approach introduces a cylindrical voxel representation based on polar coordinate to better align with the radial nature of panoramic camera views. To address the lack of fisheye camera dataset in autonomous driving tasks, we also build a virtual scene dataset with six fisheye cameras, and the data volume has reached twice that of SemanticKITTI. Experimental results demonstrate that our Sketch-Coloring network significantly enhances 3D perception performance.
Abstract（参考訳）: 正確な3D知覚は自動運転に不可欠である。伝統的な手法は、幾何学的事前の欠如により、幾何学的曖昧さに苦しむことが多い。これらの課題に対処するために、全方位深度推定を用いて幾何学的事前を導入する。深度情報に基づき,Sketch-Coloring framework OmniDepth-Occを提案する。さらに, 偏光座標に基づく円筒型ボクセル表現を導入し, パノラマカメラビューの放射特性とよく一致させる。自律走行タスクにおける魚眼カメラデータセットの欠如に対処するため、6台の魚眼カメラを用いた仮想シーンデータセットを構築し、データボリュームはSemanticKITTIの2倍に達した。実験の結果,Sketch-Coloringネットワークは3次元知覚性能を大幅に向上させることがわかった。

関連論文リスト

Masked Depth Modeling for Spatial Perception [44.0326843862591]
LingBot-Depthは、ディープマップをマスクしたディープ・モデリングにより洗練するディープ・コンプリート・モデルである。最上位のRGB-Dカメラよりも、奥行きの精度とピクセルのカバレッジが優れている。我々は,空間認識のコミュニティに対して,コード,チェックポイント,および3M RGB-depthペアをリリースする。
論文参考訳（メタデータ） (2026-01-25T16:13:49Z)
DVGT: Driving Visual Geometry Transformer [63.38483879291505]
駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。 DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
論文参考訳（メタデータ） (2025-12-18T18:59:57Z)
MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文参考訳（メタデータ） (2023-10-04T06:14:06Z)
3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文参考訳（メタデータ） (2023-03-18T05:51:05Z)
Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2022-12-20T21:35:39Z)
PolarFormer: Multi-camera 3D Object Detection with Polar Transformers [93.49713023975727]
自律運転における3次元物体検出は、3次元の世界に存在する「何」と「どこに」の物体を推論することを目的としている。既存の手法はしばしば垂直軸を持つ標準カルテ座標系を採用する。鳥眼ビュー(BEV)におけるより正確な3次元物体検出のための新しい極変換器(PolarFormer)を,マルチカメラ2D画像のみを入力として提案する。
論文参考訳（メタデータ） (2022-06-30T16:32:48Z)
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-04-07T17:58:47Z)
Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文参考訳（メタデータ） (2022-03-30T12:40:30Z)
Rope3D: TheRoadside Perception Dataset for Autonomous Driving and Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文参考訳（メタデータ） (2022-03-25T12:13:23Z)
Monocular Road Planar Parallax Estimation [25.36368935789501]
乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。 RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
論文参考訳（メタデータ） (2021-11-22T10:03:41Z)
Disentangling and Vectorization: A 3D Visual Perception Approach for Autonomous Driving Based on Surround-View Fisheye Cameras [3.485767750936058]
多次元ベクトルは、異なる次元と段階で生成される有効情報を含むことが提案されている。実魚眼画像実験により,本手法は実時間で最先端の精度を達成できることが実証された。
論文参考訳（メタデータ） (2021-07-19T13:24:21Z)
Crowdsourced 3D Mapping: A Combined Multi-View Geometry and Self-Supervised Learning Approach [10.610403488989428]
本稿では,意味的意味のあるランドマークの3次元位置を,カメラ固有の知識を仮定せずに推定するフレームワークを提案する。交通標識の位置推定には,多視点幾何と深層学習に基づく自己校正,深度,エゴモーション推定を利用する。我々はそれぞれ39cmと1.26mの平均単方向相対位置と絶対位置の精度を達成した。
論文参考訳（メタデータ） (2020-07-25T12:10:16Z)
3D Scene Geometry-Aware Constraint for Camera Localization with Deep Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文参考訳（メタデータ） (2020-05-13T04:15:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。