論文の概要: OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera
- arxiv url: http://arxiv.org/abs/2511.03571v1
- Date: Wed, 05 Nov 2025 15:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.474146
- Title: OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera
- Title(参考訳): OneOcc:単一パノラマカメラを用いた足ロボットのセマンティック動作予測
- Authors: Hao Shi, Ze Wang, Shangwei Guo, Mengfei Duan, Song Wang, Teng Chen, Kailun Yang, Lin Wang, Kaiwei Wang,
- Abstract要約: OneOccは視力のみのパノラマSSCフレームワークで、歩行誘導体ジッタと360度連続性のために設計された。
1Occ は、 (i) 二重射影融合 (DP-ER) を用いて、環状パノラマとその等方的展開を利用し、360デグ連続性と格子アライメントを保ち、 (ii) 双格子ボクセル化 (BGV) をカルテシアン空間と円筒極性空間で推論し、離散化バイアスを低減し、自由/占有境界を鋭くし、 (iii) 階層型 AMoE-3D による動的マルチスケール核融合および動的多次元核融合のための軽量デコーダ
- 参考スコア(独自算出の注目度): 41.20666727293422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust 3D semantic occupancy is crucial for legged/humanoid robots, yet most semantic scene completion (SSC) systems target wheeled platforms with forward-facing sensors. We present OneOcc, a vision-only panoramic SSC framework designed for gait-introduced body jitter and 360{\deg} continuity. OneOcc combines: (i) Dual-Projection fusion (DP-ER) to exploit the annular panorama and its equirectangular unfolding, preserving 360{\deg} continuity and grid alignment; (ii) Bi-Grid Voxelization (BGV) to reason in Cartesian and cylindrical-polar spaces, reducing discretization bias and sharpening free/occupied boundaries; (iii) a lightweight decoder with Hierarchical AMoE-3D for dynamic multi-scale fusion and better long-range/occlusion reasoning; and (iv) plug-and-play Gait Displacement Compensation (GDC) learning feature-level motion correction without extra sensors. We also release two panoramic occupancy benchmarks: QuadOcc (real quadruped, first-person 360{\deg}) and Human360Occ (H3O) (CARLA human-ego 360{\deg} with RGB, Depth, semantic occupancy; standardized within-/cross-city splits). OneOcc sets new state-of-the-art (SOTA): on QuadOcc it beats strong vision baselines and popular LiDAR ones; on H3O it gains +3.83 mIoU (within-city) and +8.08 (cross-city). Modules are lightweight, enabling deployable full-surround perception for legged/humanoid robots. Datasets and code will be publicly available at https://github.com/MasterHow/OneOcc.
- Abstract(参考訳): 足とヒューマノイドロボットにはロバストな3Dセマンティック占領が不可欠であるが、ほとんどのセマンティック・シーン・コンプリート(SSC)システムは前方センサーを備えた車輪付きプラットフォームをターゲットにしている。
歩行導入体ジッタと360{\deg}連続性のために設計された視覚のみのパノラマSSCフレームワークであるOneOccを提案する。
OneOccは、
一 二重投射核融合(DP-ER)により、環状パノラマとその等角展開を利用して、360{\deg}連続性と格子アライメントを保つこと。
(II)二格子ボクセル化(BGV)をカルテおよび円筒偏極空間で推論し、離散化バイアスを低減し、自由/占有境界を鋭くする。
三 動的マルチスケール核融合のための階層型AMoE-3Dを用いた軽量デコーダ
(4)追加センサを使わずに特徴レベルの動作補正を行うGDC学習。
また、我々は2つのパノラマ占有ベンチマークを公表した: QuadOcc (実際の4倍体、一人称360{\deg}) と Human360Occ (H3O) (CARLA human-ego 360{\deg}) 。
OneOccは新たな最先端技術(SOTA)を定め、QuadOccでは強力なビジョンベースラインと人気のあるLiDARを破り、H3Oでは+3.83 mIoU(都市内)と+8.08(都市横断)を獲得した。
モジュールは軽量で、脚とヒューマノイドロボットのフルサラウンド認識をデプロイできる。
データセットとコードはhttps://github.com/MasterHow/OneOcc.comで公開される。
関連論文リスト
- Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking [17.16370461224889]
動的環境下でのロボットの安全かつ信頼性の高い動作には,4次元時間トラッキングが不可欠である。
本稿では,4次元パノプティカル占有追跡のためのラテントガウススプラッティングについて述べる。
私たちはhttps://lags.cs.uni-freiburg.de/でコードを公開しています。
論文 参考訳(メタデータ) (2026-02-26T16:34:49Z) - Dual-Projection Fusion for Accurate Upright Panorama Generation in Robotic Vision [9.05196155518077]
本研究では,カメラ傾斜角を同時推定し,直立パノラマ画像の再構成を行うデュアルストリーム角認識ネットワークを提案する。
SUN360およびM3Dデータセットを用いた実験により,本手法は傾斜推定と直立パノラマ生成の両方において既存手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-11-30T14:28:21Z) - Unleashing Semantic and Geometric Priors for 3D Scene Completion [18.515824341739]
カメラベースの3Dセマンティックシーン補完(SSC)は、自律走行とロボットナビゲーションのための密集した幾何学的および意味的知覚を提供する。
既存の手法は、意味的および幾何学的事前情報を提供するために結合エンコーダに依存している。
本稿では、ソースレベルとパスレベルの両方で二重分離を行う新しいフレームワークであるFoundationSSCを提案する。
論文 参考訳(メタデータ) (2025-08-19T08:10:39Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - MetaOcc: Spatio-Temporal Fusion of Surround-View 4D Radar and Camera for 3D Occupancy Prediction with Dual Training Strategies [12.485905108032146]
本稿では,Omni指向の3次元占有予測のための新しいマルチモーダルフレームワークであるMetaOccを紹介する。
レーダーデータにエンコーダを直接適用することの限界に対処するため,レーダハイト自己保持モジュールを提案する。
高価な点クラウドへの依存を軽減するため,オープンセットセグメンタに基づく擬似ラベル生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-26T03:51:56Z) - Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - Dual Encoder GAN Inversion for High-Fidelity 3D Head Reconstruction from Single Images [8.558093666229553]
3D GANインバージョンは、単一の画像をGAN(Generative Adversarial Network)の潜在空間に投影することを目的としている。
3D GANインバージョンには良い結果をもたらすエンコーダがあるが、主にEG3D上に構築されている。
画像の360度合成に優れたパノヘッドを基盤とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:30:23Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - HybridGait: A Benchmark for Spatial-Temporal Cloth-Changing Gait
Recognition with Hybrid Explorations [66.5809637340079]
そこで本研究では,第1世代CCGaitベンチマークを提案する。
我々は3次元メッシュの時間的ダイナミクスと投影された2次元情報の両方を利用する。
私たちのコントリビューションは2つあります: 拡張された空間にわたる現実的な外見の変化をキャプチャする、挑戦的なベンチマークCCGaitを提供しています。
論文 参考訳(メタデータ) (2023-12-30T16:12:13Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes [53.60876822010642]
粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて高品質なパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
実験では,KITTI-360データセット上でのラベル転送方式に対するPanopticNeRF-360の最先端性能を実証した。
論文 参考訳(メタデータ) (2023-09-19T17:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。