論文の概要: Towards Learning a Generalizable 3D Scene Representation from 2D Observations
- arxiv url: http://arxiv.org/abs/2602.10943v1
- Date: Wed, 11 Feb 2026 15:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.041892
- Title: Towards Learning a Generalizable 3D Scene Representation from 2D Observations
- Title(参考訳): 2次元観察から一般化可能な3次元シーン表現の学習に向けて
- Authors: Martin Gromniak, Jan-Gerrit Habekost, Sebastian Kamp, Sven Magg, Stefan Wermter,
- Abstract要約: 我々は,エゴセントリックなロボット観測から3次元ワークスペース占有率を予測するための一般化可能なニューラルラジアンス場アプローチを提案する。
本モデルでは,グローバルなワークスペースフレーム内での占有率表現を構築し,ロボット操作に直接適用する。
- 参考スコア(独自算出の注目度): 7.434862537620824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a Generalizable Neural Radiance Field approach for predicting 3D workspace occupancy from egocentric robot observations. Unlike prior methods operating in camera-centric coordinates, our model constructs occupancy representations in a global workspace frame, making it directly applicable to robotic manipulation. The model integrates flexible source views and generalizes to unseen object arrangements without scene-specific finetuning. We demonstrate the approach on a humanoid robot and evaluate predicted geometry against 3D sensor ground truth. Trained on 40 real scenes, our model achieves 26mm reconstruction error, including occluded regions, validating its ability to infer complete 3D occupancy beyond traditional stereo vision methods.
- Abstract(参考訳): 我々は,エゴセントリックなロボット観測から3次元ワークスペース占有率を予測するための一般化可能なニューラルラジアンス場アプローチを提案する。
カメラ中心の座標における従来の手法とは異なり、我々のモデルはグローバルなワークスペースフレームにおける占有率表現を構築し、ロボット操作に直接適用する。
このモデルは、フレキシブルなソースビューを統合し、シーン固有の微調整なしで、見えないオブジェクトアレンジメントに一般化する。
本研究では,ヒューマノイドロボットのアプローチを実証し,予測幾何を3次元センサグラウンドの真偽に対して評価する。
また,本モデルでは,従来の立体視以上の3D占有率を推定する能力を検証し,閉鎖領域を含む26mmの再現誤差を再現する。
関連論文リスト
- PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation [48.807071017228964]
我々は,3次元の点流として共有された3次元空間における状態と動作を統一する,大規模な事前学習型3次元世界モデルであるPointWorldを紹介した。
リアルタイム(0.1秒)の推論速度により、PointWorldは、操作のためのモデル予測制御(MPC)フレームワークに効率的に統合できる。
本研究では,実世界のフランカロボットが,物体の剛体押圧,変形,調音操作を行うことのできる1つの事前学習チェックポイントを実証した。
論文 参考訳(メタデータ) (2026-01-07T10:29:12Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。