論文の概要: Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
- arxiv url: http://arxiv.org/abs/2505.14366v1
- Date: Tue, 20 May 2025 13:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.27158
- Title: Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
- Title(参考訳): 空間的接地型合成世界を通じたロボットの身体認知に向けて
- Authors: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska,
- Abstract要約: 本稿では視覚的視点取り(VPT)を行うために視覚言語モデル(VLM)を訓練するための概念的枠組みを提案する。
我々は、空間推論タスクの教師あり学習を可能にする、NVIDIA Omniverseで生成された合成データセットを提案する。
この研究は、対話型人間ロボットシナリオにおいて空間的理解が可能なAIシステムを具現化するための基礎的なステップとして機能する。
- 参考スコア(独自算出の注目度): 1.696186398088554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a conceptual framework for training Vision-Language Models (VLMs) to perform Visual Perspective Taking (VPT), a core capability for embodied cognition essential for Human-Robot Interaction (HRI). As a first step toward this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse, that enables supervised learning for spatial reasoning tasks. Each instance includes an RGB image, a natural language description, and a ground-truth 4X4 transformation matrix representing object pose. We focus on inferring Z-axis distance as a foundational skill, with future extensions targeting full 6 Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to support further research. This work serves as a foundational step toward embodied AI systems capable of spatial understanding in interactive human-robot scenarios.
- Abstract(参考訳): 本稿では,ヒューマン・ロボット・インタラクション(HRI)に不可欠な認知を具現化するためのコア機能である視覚的パースペクティブ・テイキング(VPT)を実行するために,視覚言語モデル(VLM)を訓練するための概念的枠組みを提案する。
この目標に向けた第一歩として、NVIDIA Omniverseで生成された合成データセットを導入し、空間推論タスクの教師付き学習を可能にする。
各インスタンスは、RGBイメージ、自然言語記述、オブジェクトのポーズを表す4X4変換行列を含む。
我々は、Z軸距離を基礎技術として推定することに集中し、将来の拡張は完全な6自由度推論(DOF)をターゲットにする。
データセットは、さらなる研究をサポートするために公開されている。
この研究は、対話型人間ロボットシナリオにおいて空間的理解が可能なAIシステムを具現化するための基礎的なステップとして機能する。
関連論文リスト
- Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models [60.675955082094944]
本稿では,人間の好奇心に触発されたエージェント探索フレームワークIVEを紹介する。
シミュレーションおよび実世界のテーブルトップ環境におけるIVEの評価を行った。
論文 参考訳(メタデータ) (2025-05-12T17:59:11Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
ロボット工学における空間理解のための大規模データセットであるRoboSpatialを紹介する。
実際の屋内とテーブルトップのシーンで構成され、3Dスキャンとエゴセントリックなイメージとして撮影され、ロボット工学に関連する豊富な空間情報が注釈付けされている。
実験により, 空間空き時間予測, 空間的関係予測, ロボット操作など, 下流作業におけるRoboSpatialで訓練したモデルは, ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Space-LLaVA: a Vision-Language Model Adapted to Extraterrestrial Applications [14.89043819048682]
宇宙ロボティクスのためのFMを構築する動機となる宇宙ロボティクスには,3つの課題がある。
宇宙基盤モデルへの第一歩として、3つの地球外データベースを微細なアノテーションで拡張する。
我々は、地球外環境のセマンティックな特徴に適応するために、ビジョン・ランゲージ・モデル(Vision-Language Model)を微調整する。
論文 参考訳(メタデータ) (2024-08-12T05:07:24Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。