論文の概要: SR-Platform: An Agentic Pipeline for Natural Language-Driven Robot Simulation Environment Synthesis
- arxiv url: http://arxiv.org/abs/2605.14700v1
- Date: Thu, 14 May 2026 11:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.789192
- Title: SR-Platform: An Agentic Pipeline for Natural Language-Driven Robot Simulation Environment Synthesis
- Title(参考訳): SR-Platform:自然言語駆動型ロボットシミュレーション環境合成のためのエージェントパイプライン
- Authors: Ben Wei Lim, Minh Duc Le, Thang Truong, Thanh Nguyen Canh,
- Abstract要約: SR-Platformは、フリーフォームの自然言語記述を実行可能な MuJoCo 環境に変換する、実運用用のエージェントシステムである。
シーン合成を4つのステージに分割する: ユーザ意図を構造化されたシーンプランに変換するオーケストレータ、キャッシュされた資産を取得または新しい3D幾何学を生成するアセットフォージ。
このシステムは、WebSocketプログレスストリーミング、MinIOベースのメッシュストレージ、Qdrantベースのセマンティックアセット検索、Redisジョブ状態、InfluxDBテレメトリを備えた9サービスDockerスタックとしてデプロイされる。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating robot simulation environments remains a major bottleneck in simulation-based robot learning. Constructing a training-ready MuJoCo scene typically requires expertise in 3D asset modeling, MJCF specification, spatial layout, collision avoidance, and robot-model integration. We present SR-Platform, a production-deployed agentic system that converts free-form natural language descriptions into executable, physically valid MuJoCo environments. SR-Platform decomposes scene synthesis into four stages: an LLM-based orchestrator that converts user intent into a structured scene plan; an asset forge that retrieves cached assets or generates new 3D geometry through LLM-to-CadQuery synthesis; a layout architect that assigns object poses and verifies industrial constraints; and a bridge layer that assembles the final MJCF scene and merges the selected robot model. The system is deployed as a nine-service Docker stack with WebSocket progress streaming, MinIO-backed mesh storage, Qdrant-based semantic asset retrieval, Redis job state, and InfluxDB telemetry. Using 30 days of production telemetry covering 611 successful LLM calls, SR-Platform generates five-object scenes with a median end-to-end latency of approximately 50 s, while cache-accelerated scenes complete in approximately 30-40 s. The asset forge shows an 11.3% first-attempt retry rate with automatic recovery, and cached asset retrieval removes per-object LLM calls for previously generated object types. These results show that agentic scene synthesis can reduce the manual effort required to create diverse robot training environments, enabling users to produce executable MuJoCo scenes from plain English prompts in under one minute.
- Abstract(参考訳): シミュレーションに基づくロボット学習において、ロボットシミュレーション環境の生成は依然として大きなボトルネックとなっている。
トレーニング可能な MuJoCo シーンの構築には,3次元アセットモデリングや MJCF 仕様,空間レイアウト,衝突回避,ロボットモデル統合といった専門知識が必要となるのが一般的だ。
SR-Platformは,自由形式の自然言語記述を実行可能で物理的に有効な MuJoCo 環境に変換するエージェントシステムである。
SR-Platformはシーン合成を4つのステージに分解する: ユーザ意図を構造化されたシーンプランに変換するLLMベースのオーケストレータ、キャッシュされた資産を検索したり、LLM-to-CadQuery合成を通じて新しい3D幾何学を生成するアセットフォージ、オブジェクトのポーズを割り当てて工業的制約を検証するレイアウトアーキテクト、最終MJCFシーンを組み立てて選択されたロボットモデルをマージするブリッジレイヤ。
このシステムは、WebSocketプログレスストリーミング、MinIOベースのメッシュストレージ、Qdrantベースのセマンティックアセット検索、Redisジョブ状態、InfluxDBテレメトリを備えた9サービスDockerスタックとしてデプロイされる。
SR-Platformは611回のLCMコールをカバーした30日間のプロダクションテレメトリを使用して、約50秒の終端遅延を持つ5つのオブジェクトシーンを生成し、キャッシュ加速シーンは約30~40秒で完了した。
アセットフォージは、自動リカバリで11.3%のファーストアタプティブリトライ率を示し、キャッシュされたアセット検索は、以前生成されたオブジェクトタイプに対するオブジェクトごとのLCMコールを除去する。
これらの結果から,エージェントシーン合成は,ロボット訓練環境の多様化に要する作業量を削減し,通常の英語のプロンプトから実行可能な MuJoCo シーンを1分以内で作成できることが示唆された。
関連論文リスト
- Agentic Video Generation: From Text to Executable Event Graphs via Tool-Constrained LLM Planning [4.964902130083661]
既存のマルチエージェントビデオ生成システムは、LLMエージェントを使用してニューラルビデオジェネレータをオーケストレーションする。
本稿では,このパラダイムを逆転させ,空間と時間におけるイベントの形式的なグラフを構築するエージェントシステムを提案する。
プログラム状態バックエンドは、検証済みのツールコールを通じてすべてのシミュレータの制約を強制し、生成されたすべての仕様が実行可能であることを保証します。
論文 参考訳(メタデータ) (2026-04-11T23:51:13Z) - SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM [14.374484080984423]
本稿では,部分レベルの分解と運動予測を共同で行う統合MLLMフレームワークであるSIMARTを提案する。
Sparse 3D VQ-VAEを導入することで、SIMARTは、密度の高いボクセルトークンに対してトークン数を70%削減し、高忠実なマルチパーツアセンブリを可能にする。
論文 参考訳(メタデータ) (2026-03-24T16:16:52Z) - SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes [19.995619927680476]
SceneSmithは、建築レイアウトから天然家具の人口まで、環境を構築する。
SceneSmithは従来の方法よりも多くのオブジェクトを生成し、2%のオブジェクト間衝突と96%のオブジェクトは物理シミュレーションの下で安定している。
SceneSmith環境は、エンドツーエンドのパイプラインで、自動ポリシ評価に使用することができる。
論文 参考訳(メタデータ) (2026-02-09T19:56:04Z) - EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis [101.67583081810136]
大規模言語モデル(LLM)は、様々な現実世界環境においてエージェントとして機能するよう訓練されることが期待されている。
このプロセスはリッチで多様なツール・インタラクション・サンドボックスに依存している。
スケーラブルなツールインタラクション環境のための自動化フレームワークであるEnvScalerを提案する。
論文 参考訳(メタデータ) (2026-01-09T14:32:06Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Steerable Scene Generation with Post Training and Inference-Time Search [21.854690970995648]
シミュレーションのトレーニングロボットは、下流タスクの特定の課題を反映した多様な3Dシーンを必要とする。
ロボット操作のための現実的な環境を近似した手続きモデルを用いて大規模シーンデータを生成する。
5つの異なる環境にまたがる4400万のSE(3)シーンのデータセットをリリースします。
論文 参考訳(メタデータ) (2025-05-07T22:07:42Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code [76.22337677728109]
SceneCraftはLarge Language Model (LLM)エージェントで、テキスト記述をBlender-executable Pythonスクリプトに変換する。
SceneCraftは、100個の3Dアセットで複雑なシーンをレンダリングする。
高度な抽象化、戦略的計画、ライブラリ学習を組み合わせることで、これらの課題に取り組みます。
論文 参考訳(メタデータ) (2024-03-02T16:16:26Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。