論文の概要: Pandora: Articulated 3D Scene Graphs from Egocentric Vision
- arxiv url: http://arxiv.org/abs/2603.28732v1
- Date: Mon, 30 Mar 2026 17:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.545563
- Title: Pandora: Articulated 3D Scene Graphs from Egocentric Vision
- Title(参考訳): Pandora:エゴセントリック・ビジョンの3Dシーングラフ
- Authors: Alan Yu, Yun Chang, Christopher Xie, Luca Carlone,
- Abstract要約: 第一人マップ」は、その具現化やスキルセットによってロボット自身の限界を継承する。
我々は、人間として捉えた自我中心のデータを、Project Ariaグラスを装着したシーンで自然に探索する方法を示す。
また、これらのモデルを3次元シーングラフ表現に統合する方法を示し、オブジェクトのダイナミクスとオブジェクトとコンテナの関係をよりよく理解する。
- 参考スコア(独自算出の注目度): 14.360977802295837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic mapping systems typically approach building metric-semantic scene representations from the robot's own sensors and cameras. However, these "first person" maps inherit the robot's own limitations due to its embodiment or skillset, which may leave many aspects of the environment unexplored. For example, the robot might not be able to open drawers or access wall cabinets. In this sense, the map representation is not as complete, and requires a more capable robot to fill in the gaps. We narrow these blind spots in current methods by leveraging egocentric data captured as a human naturally explores a scene wearing Project Aria glasses, giving a way to directly transfer knowledge about articulation from the human to any deployable robot. We demonstrate that, by using simple heuristics, we can leverage egocentric data to recover models of articulate object parts, with quality comparable to those of state-of-the-art methods based on other input modalities. We also show how to integrate these models into 3D scene graph representations, leading to a better understanding of object dynamics and object-container relationships. We finally demonstrate that these articulated 3D scene graphs enhance a robot's ability to perform mobile manipulation tasks, showcasing an application where a Boston Dynamics Spot is tasked with retrieving concealed target items, given only the 3D scene graph as input.
- Abstract(参考訳): ロボットマッピングシステムは、通常、ロボット自身のセンサーとカメラからメトリック・セマンティックなシーン表現を構築することにアプローチする。
しかし、これらの「ファースト・パーソン」マップは、環境の多くの側面を未調査のまま残す可能性がある、その具体化やスキルセットのために、ロボット自身の制限を継承する。
例えば、ロボットは引き出しを開いて壁のキャビネットにアクセスできないかもしれない。
この意味では、地図表現は完全ではなく、ギャップを埋めるためにはより有能なロボットが必要である。
我々は、現在の方法でこれらの盲点を狭め、人間として捉えた自我中心のデータを利用して、Project Ariaグラスを装着したシーンを自然に探索し、人間からデプロイ可能なロボットに直接、調音に関する知識を伝達する方法を提供する。
簡単なヒューリスティックスを用いて,エゴセントリックなデータを用いて,他の入力モーダル性に基づく最先端手法に匹敵する品質のオブジェクト部品のモデルを復元できることを実証した。
また、これらのモデルを3次元シーングラフ表現に統合する方法を示し、オブジェクトのダイナミクスとオブジェクトとコンテナの関係をよりよく理解する。
ロボットが3Dシーングラフのみを入力として,ボストン・ダイナミクス・スポットが隠れた対象物を検索するアプリケーションの例を示すとともに,これらの3Dシーングラフがロボットの移動操作能力を高めることを実証した。
関連論文リスト
- EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models [68.35971238810863]
現在のSLAMとローカライゼーションシステムは、点雲やボクセルのようなスパース表現に依存している。
NeRF、3DGS、ファンデーションモデルは、ハイレベルなセマンティック機能と言語ベースの先行機能を統合するのに適している。
論文 参考訳(メタデータ) (2025-12-03T03:57:01Z) - Pixels-to-Graph: Real-time Integration of Building Information Models and Scene Graphs for Semantic-Geometric Human-Robot Understanding [6.924983239916623]
画像画素とLiDARマップから構造化されたシーングラフをリアルタイムに生成する,新しい軽量な手法である Pixels-to-Graph (Pix2G) を紹介する。
このフレームワークは、オンボードの計算制約を満たすためだけにCPU上のすべての操作を実行するように設計されている。
提案手法は,NASA JPL NeBula-Spot脚ロボットを用いた実世界の実験において,定量的に定性的に評価される。
論文 参考訳(メタデータ) (2025-06-27T19:23:31Z) - 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。
現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。
我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文 参考訳(メタデータ) (2025-06-06T16:00:31Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。