論文の概要: RobotPan: A 360$^\circ$ Surround-View Robotic Vision System for Embodied Perception
- arxiv url: http://arxiv.org/abs/2604.13476v1
- Date: Wed, 15 Apr 2026 04:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.388915
- Title: RobotPan: A 360$^\circ$ Surround-View Robotic Vision System for Embodied Perception
- Title(参考訳): ロボットパン:360ドル^\circ$ Overround-View Robotic Vision System for Embodied Perception
- Authors: Jiahao Ma, Qiang Zhang, Peiran Liu, Zeran Su, Pihai Sun, Gang Han, Wen Zhao, Wei Cui, Zhang Zhang, Zhiyuan Xu, Renjing Xu, Jian Tang, Miaomiao Liu, Yijie Guo,
- Abstract要約: 6台のカメラをLiDARと組み合わせて360ドル(約3万2000円)のビジュアルカバレッジを提供するサラウンドビューロボットビジョンシステムを導入する。
また、キャリブレーションされたスパースビューの入力から、エンフェロメトリースケールとエンフェロパクトの3Dガウスを予測できるフィードフォワードフレームワークであるtextscRobotPan を提示する。
実験により,textscRobotPanはフィードフォワードの事前再構成やビュー合成手法と競合する品質を実現することが示された。
- 参考スコア(独自算出の注目度): 47.76543396190029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surround-view perception is increasingly important for robotic navigation and loco-manipulation, especially in human-in-the-loop settings such as teleoperation, data collection, and emergency takeover. However, current robotic visual interfaces are often limited to narrow forward-facing views, or, when multiple on-board cameras are available, require cumbersome manual switching that interrupts the operator's workflow. Both configurations suffer from motion-induced jitter that causes simulator sickness in head-mounted displays. We introduce a surround-view robotic vision system that combines six cameras with LiDAR to provide full 360$^\circ$ visual coverage, while meeting the geometric and real-time constraints of embodied deployment. We further present \textsc{RobotPan}, a feed-forward framework that predicts \emph{metric-scaled} and \emph{compact} 3D Gaussians from calibrated sparse-view inputs for real-time rendering, reconstruction, and streaming. \textsc{RobotPan} lifts multi-view features into a unified spherical coordinate representation and decodes Gaussians using hierarchical spherical voxel priors, allocating fine resolution near the robot and coarser resolution at larger radii to reduce computational redundancy without sacrificing fidelity. To support long sequences, our online fusion updates dynamic content while preventing unbounded growth in static regions by selectively updating appearance. Finally, we release a multi-sensor dataset tailored to 360$^\circ$ novel view synthesis and metric 3D reconstruction for robotics, covering navigation, manipulation, and locomotion on real platforms. Experiments show that \textsc{RobotPan} achieves competitive quality against prior feed-forward reconstruction and view-synthesis methods while producing substantially fewer Gaussians, enabling practical real-time embodied deployment. Project website: https://robotpan.github.io/
- Abstract(参考訳): ロボットナビゲーションやロコ操作では,特に遠隔操作やデータ収集,緊急テイクオーバといった,ループ内設定において,周囲の認識がますます重要になっている。
しかしながら、現在のロボット・ビジュアル・インタフェースは、しばしば前方の狭いビューに制限されるか、複数のオンボードカメラが利用可能である場合、オペレーターのワークフローを中断する面倒な手動切替が必要となる。
両方の構成は、ヘッドマウントディスプレイでシミュレーターの病気を引き起こす動きによって引き起こされるジッタに悩まされる。
本研究では、6台のカメラをLiDARと組み合わせて360$^\circ$の視覚的カバレッジを提供するサラウンドビューロボットビジョンシステムを提案する。
さらに、リアルタイムレンダリング、再構成、ストリーミングのためのキャリブレーションされたスパースビュー入力から \emph{metric-scaled} と \emph{compact} 3D Gaussian を予測するフィードフォワードフレームワークである \textsc{RobotPan} を提示する。
\textsc{RobotPan} は、多面的な特徴を統一された球面座標表現に持ち上げ、階層的な球面ボクセル前駆体を用いてガウスをデコードし、ロボットの近傍に微細な解像度を割り当て、より大きな半径で粗い解像度を割り当て、忠実さを犠牲にすることなく計算冗長性を減少させる。
長いシーケンスをサポートするため、我々のオンライン融合は動的コンテンツを更新し、外観を選択的に更新することで静的領域の非有界成長を防止した。
最後に、実プラットフォーム上でのナビゲーション、操作、移動をカバーし、ロボティクスのための360$^\circ$新しいビュー合成とメートル法3D再構成に適したマルチセンサーデータセットをリリースする。
実験により, 従来のフィードフォワード再構成やビュー合成手法と競合する品質を実現し, ガウシアンを著しく減らし, 実時間での実施を可能にした。
プロジェクトウェブサイト: https://robotpan.github.io/
関連論文リスト
- Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - QuaDreamer: Controllable Panoramic Video Generation for Quadruped Robots [35.458219603280995]
QuaDreamerは四足歩行ロボット用に設計された最初のパノラマデータ生成エンジンである。
ジッタ信号制御下での高品質パノラマ映像生成を容易にするために,SOC(Scene-Object Controller)を提案する。
生成されたビデオシーケンスは、四足歩行ロボットのパノラマ視覚知覚モデルのトレーニングデータとして機能する。
論文 参考訳(メタデータ) (2025-08-04T15:18:01Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives [6.431806897364565]
ロボットは2D画像から3D環境を理解することができる。
本稿では,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。
その結果,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。
論文 参考訳(メタデータ) (2023-06-07T05:36:45Z) - COPILOT: Human-Environment Collision Prediction and Localization from
Egocentric Videos [62.34712951567793]
エゴセントリックな観測から人間と環境の衝突を予測する能力は、VR、AR、ウェアラブルアシストロボットなどのアプリケーションにおける衝突回避を可能にするために不可欠である。
本稿では、ボディマウントカメラから撮影した多視点エゴセントリックビデオから、多様な環境における衝突を予測するという課題を紹介する。
衝突予測と局所化を同時に行うために,COPILOTと呼ばれるトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-04T17:49:23Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。