Fugu-MT 論文翻訳(概要): Real2Sim based on Active Perception with automatically VLM-generated Behavior Trees

論文の概要: Real2Sim based on Active Perception with automatically VLM-generated Behavior Trees

arxiv url: http://arxiv.org/abs/2601.08454v1
Date: Tue, 13 Jan 2026 11:28:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.766614
Title: Real2Sim based on Active Perception with automatically VLM-generated Behavior Trees
Title（参考訳）: VLM生成行動木を用いた能動知覚に基づくReal2Sim
Authors: Alessandro Adami, Sebastian Zudaire, Ruggero Carli, Pietro Falco,
Abstract要約: 本稿では,タスク固有の物理的インタラクションのための行動木を自律的に生成・実行するReal2Simフレームワークを提案する。高レベルのユーザ要求、不完全なシミュレーション記述、シーンのRGB観察が与えられた場合、視覚言語モデルは、関連するオブジェクトを特定するためのマルチモーダル推論を実行する。結果の挙動はトルク制御されたフランカ・エミカ・パンダ上で実行され、パラメータ推定に適合し、接触に富んだ相互作用を可能にする。
参考スコア（独自算出の注目度）: 41.21672421530866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Constructing an accurate simulation model of real-world environments requires reliable estimation of physical parameters such as mass, geometry, friction, and contact surfaces. Traditional real-to-simulation (Real2Sim) pipelines rely on manual measurements or fixed, pre-programmed exploration routines, which limit their adaptability to varying tasks and user intents. This paper presents a Real2Sim framework that autonomously generates and executes Behavior Trees for task-specific physical interactions to acquire only the parameters required for a given simulation objective, without relying on pre-defined task templates or expert-designed exploration routines. Given a high-level user request, an incomplete simulation description, and an RGB observation of the scene, a vision-language model performs multi-modal reasoning to identify relevant objects, infer required physical parameters, and generate a structured Behavior Tree composed of elementary robotic actions. The resulting behavior is executed on a torque-controlled Franka Emika Panda, enabling compliant, contact-rich interactions for parameter estimation. The acquired measurements are used to automatically construct a physics-aware simulation. Experimental results on the real manipulator demonstrate estimation of object mass, surface height, and friction-related quantities across multiple scenarios, including occluded objects and incomplete prior models. The proposed approach enables interpretable, intent-driven, and autonomously Real2Sim pipelines, bridging high-level reasoning with physically-grounded robotic interaction.
Abstract（参考訳）: 実世界の環境の正確なシミュレーションモデルを構築するには、質量、幾何学、摩擦、接触面といった物理的パラメータの信頼性の高い推定が必要である。従来のリアル・トゥ・シミュレート(Real2Sim)パイプラインは手動測定や、プログラム済みの探索ルーチンに依存しており、さまざまなタスクやユーザ意図への適応性を制限する。本稿では,タスク固有の物理的相互作用に対して,予め定義されたタスクテンプレートや専門家が設計した探索ルーチンを使わずに,与えられたシミュレーション対象のパラメータのみを取得するために,自律的に行動ツリーを生成し,実行するためのReal2Simフレームワークを提案する。高レベルのユーザ要求、不完全なシミュレーション記述、シーンのRGB観察を与えられたビジョン言語モデルは、関連する対象を特定し、必要な物理的パラメータを推測し、基本的なロボット動作からなる構造化された行動木を生成する。結果の挙動はトルク制御されたフランカ・エミカ・パンダ上で実行され、パラメータ推定に適合し、接触に富んだ相互作用を可能にする。得られた測定値は、物理を意識したシミュレーションを自動構築するために使用される。実マニピュレータの実験結果から, 物体の質量, 表面高さ, 摩擦関連量を, 閉塞物体や不完全な先行モデルを含む複数のシナリオで推定した。提案したアプローチは、解釈可能、意図駆動、自律的なReal2Simパイプラインを可能にし、物理的に接地されたロボットインタラクションによる高レベルの推論をブリッジする。

関連論文リスト

URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation [45.4820195450296]
本稿では,視覚的観察から実行可能なオブジェクトモデルを直接生成する,エンドツーエンドの自動回帰フレームワークを提案する。視覚的観察から構築された高忠実度デジタル双生児は、シミュレーションで訓練されたポリシーを、オンライン適応なしで実際のロボットに転送することができる。
論文参考訳（メタデータ） (2026-03-14T16:23:44Z)
Real-to-Sim for Highly Cluttered Environments via Physics-Consistent Inter-Object Reasoning [11.05191602561784]
単一視点からの物理的に有効な3Dシーンの再構築は、視覚知覚とロボット制御のギャップを埋めるための前提条件である。本稿では,物理制約付き実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実
論文参考訳（メタデータ） (2026-02-13T05:24:58Z)
Contact-Aware Neural Dynamics [42.83872574010789]
本研究では,シミュレータのダイナミクスと接触情報との整合性を学習する暗黙のsim-to-realフレームワークを提案する。本研究では,ロボットハンドの触覚接触情報を用いることで,接触に富む作業に係わる非滑らかな不連続性を効果的にモデル化できることを示す。
論文参考訳（メタデータ） (2026-01-19T07:56:13Z)
SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。物理力学に関する基礎的な理解は欠如している。テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文参考訳（メタデータ） (2025-12-05T18:51:03Z)
Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文参考訳（メタデータ） (2025-11-03T07:21:42Z)
URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。 URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-11-02T13:45:51Z)
Scan, Materialize, Simulate: A Generalizable Framework for Physically Grounded Robot Planning [16.193477346643295]
Scan, Materialize, Simulate (SMS) は,正確なシーン再構成のための3次元ガウススプラッティング,セマンティックセグメンテーションのための視覚基盤モデル,物質特性推定のための視覚言語モデル,アクション結果の信頼性予測のための物理シミュレーションを組み合わせた統合フレームワークである。本研究は,シーン再構築のための異種レンダリング,セマンティック理解のための基礎モデル,物理に基づくシミュレーションにより,多様な環境にまたがる物理的基盤を持つロボット計画を実現する可能性を強調した。
論文参考訳（メタデータ） (2025-05-20T21:55:01Z)
GRS: Generating Robotic Simulation Tasks from Real-World Images [21.599606995763036]
GRSは単一のRGB-D観測からデジタルツインシミュレーションを作成し、仮想エージェントトレーニングのための解決可能なタスクを行う。生成したテストスイートを通じてシミュレーションタスクのアライメントを確保し、シミュレーションとテストコードの両方を反復的に洗練するルータを導入する。
論文参考訳（メタデータ） (2024-10-20T23:33:06Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文参考訳（メタデータ） (2021-04-15T17:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。