論文の概要: RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains
- arxiv url: http://arxiv.org/abs/2604.05226v1
- Date: Mon, 06 Apr 2026 22:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.519124
- Title: RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains
- Title(参考訳): RoboPlayground: 構造体ドメインによるロボット評価の民主化
- Authors: Yi Ru Wang, Carter Ung, Evan Gubarev, Christopher Tan, Siddhartha Srinivasa, Dieter Fox,
- Abstract要約: ロボット操作システムの評価は、専門家が作成した固定ベンチマークに大きく依存している。
我々は、現代的な操作ポリシーを評価するには、言語駆動のプロセスとしてのリフレーミング評価が必要であると論じる。
本稿では,自然言語を用いて実行可能な操作タスクを作成可能なフレームワークであるRoboPlaygroundを提案する。
- 参考スコア(独自算出の注目度): 19.460905215536254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of robotic manipulation systems has largely relied on fixed benchmarks authored by a small number of experts, where task instances, constraints, and success criteria are predefined and difficult to extend. This paradigm limits who can shape evaluation and obscures how policies respond to user-authored variations in task intent, constraints, and notions of success. We argue that evaluating modern manipulation policies requires reframing evaluation as a language-driven process over structured physical domains. We present RoboPlayground, a framework that enables users to author executable manipulation tasks using natural language within a structured physical domain. Natural language instructions are compiled into reproducible task specifications with explicit asset definitions, initialization distributions, and success predicates. Each instruction defines a structured family of related tasks, enabling controlled semantic and behavioral variation while preserving executability and comparability. We instantiate RoboPlayground in a structured block manipulation domain and evaluate it along three axes. A user study shows that the language-driven interface is easier to use and imposes lower cognitive workload than programming-based and code-assist baselines. Evaluating learned policies on language-defined task families reveals generalization failures that are not apparent under fixed benchmark evaluations. Finally, we show that task diversity scales with contributor diversity rather than task count alone, enabling evaluation spaces to grow continuously through crowd-authored contributions. Project Page: https://roboplayground.github.io
- Abstract(参考訳): ロボット操作システムの評価は、タスクインスタンス、制約、成功基準が事前に定義され、拡張が困難である少数の専門家によって書かれた固定ベンチマークに大きく依存している。
このパラダイムは、評価を形作ることができ、ユーザが承認したタスク意図や制約、成功の概念に対するポリシーの対応方法を曖昧にします。
我々は、現代的な操作ポリシーを評価するには、構造化された物理領域に対する言語駆動的なプロセスとしての評価が必要であると論じる。
本稿では,構造化された物理ドメイン内で自然言語を用いて実行可能操作タスクを作成可能なフレームワークであるRoboPlaygroundを提案する。
自然言語命令は、明示的な資産定義、初期化分布、成功述語を含む再現可能なタスク仕様にコンパイルされる。
各命令は関連するタスクの構造化されたファミリーを定義し、実行可能性と可視性を保ちながら意味的および振る舞いの制御を可能にする。
構造化ブロック操作領域でRoboPlaygroundをインスタンス化し、3つの軸に沿って評価する。
ユーザ調査によると、言語駆動のインターフェースは、プログラミングベースやコードアシストのベースラインよりも使いやすく、認知的負荷も少なくなっている。
言語定義タスクファミリーにおける学習ポリシーの評価は、固定ベンチマーク評価では明らかでない一般化失敗を明らかにする。
最後に、タスクの多様性は、タスクカウントのみでなく、コントリビュータの多様性とともにスケールし、クラウドオーサリングによるコントリビューションを通じて評価空間を継続的に成長させることができることを示す。
Project Page: https://roboplayground.github.io
関連論文リスト
- RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation [32.080769025457926]
本稿では,現在の双方向操作ポリシーの限界を明らかにするために,シミュレーションベンチマークと構造化評価フレームワークであるRoboEvalを提案する。
RoboEvalは、空間、物理的、コーディネート機能に体系的に挑戦する、階層化されたセマンティックな基礎付けられた一連のタスクを導入した。
行動メトリクスは、タスクメトリックペアの半数以上の成功と相関し、バイナリ成功が飽和しても情報的であり続ける。
論文 参考訳(メタデータ) (2025-07-01T05:33:16Z) - CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity [23.77040677368575]
我々は,潜在的にあいまいな自然言語によって指定されたタスクを達成できる,新しいロボット操作フレームワークを導入する。
このフレームワークはVLM(Vision-Language Model)を使用して、自然言語命令の抽象概念を解釈する。
本稿では,言語あいまいさ,コンタクトリッチな操作,多目的インタラクションといった課題に対して,アプローチが優れていることを示す。
論文 参考訳(メタデータ) (2025-06-19T23:42:03Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Fully Automated Task Management for Generation, Execution, and
Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language
Instructions in Continuous Space [1.2691047660244337]
本稿では,視覚情報に基づくタスク実行を実現するためのフレームワークを開発することを目的とする。
本稿では,FCOGタスクの生成,実行,評価の完全自動化のためのフレームワークを提案する。
さらに、FCOGタスクを4つの異なるサブタスクに分割することで、FCOGタスクを解決する方法を提案する。
論文 参考訳(メタデータ) (2023-11-07T15:38:09Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - A Persistent Spatial Semantic Representation for High-level Natural
Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。
一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2021-07-12T17:47:19Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。