論文の概要: Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2508.15663v1
- Date: Thu, 21 Aug 2025 15:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.392008
- Title: Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation
- Title(参考訳): 作業計画のためのIsaacSimベンチマークとモバイル操作における低レベルポリシーの併用評価
- Authors: Nikita Kachaev, Andrei Spiridonov, Andrey Gorodetsky, Kirill Muravyev, Nikita Oskolkov, Aditya Narendra, Vlad Shakhuro, Dmitry Makarov, Aleksandr I. Panov, Polina Fedotova, Alexey K. Kovalev,
- Abstract要約: Kitchen-Rは、シミュレーションされたキッチン環境内でタスク計画と低レベル制御の評価を統合するベンチマークである。
アイザック・シムシミュレーターを使ってデジタル双生児として開発されたKitchen-Rは、移動式マニピュレータロボットをサポートしている。
- 参考スコア(独自算出の注目度): 31.874825130479174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks are crucial for evaluating progress in robotics and embodied AI. However, a significant gap exists between benchmarks designed for high-level language instruction following, which often assume perfect low-level execution, and those for low-level robot control, which rely on simple, one-step commands. This disconnect prevents a comprehensive evaluation of integrated systems where both task planning and physical execution are critical. To address this, we propose Kitchen-R, a novel benchmark that unifies the evaluation of task planning and low-level control within a simulated kitchen environment. Built as a digital twin using the Isaac Sim simulator and featuring more than 500 complex language instructions, Kitchen-R supports a mobile manipulator robot. We provide baseline methods for our benchmark, including a task-planning strategy based on a vision-language model and a low-level control policy based on diffusion policy. We also provide a trajectory collection system. Our benchmark offers a flexible framework for three evaluation modes: independent assessment of the planning module, independent assessment of the control policy, and, crucially, an integrated evaluation of the whole system. Kitchen-R bridges a key gap in embodied AI research, enabling more holistic and realistic benchmarking of language-guided robotic agents.
- Abstract(参考訳): ベンチマークは、ロボット工学と組み込みAIの進歩を評価するために不可欠である。
しかしながら、完全な低レベル実行を前提とする高レベル言語命令のためのベンチマークと、シンプルでワンステップのコマンドに依存する低レベルロボット制御のためのベンチマークとの間には、大きなギャップがある。
この切断は、タスク計画と物理実行の両方が重要である統合システムの包括的な評価を防止する。
そこで本研究では,シミュレーションキッチン環境におけるタスク計画と低レベル制御の評価を統一する新しいベンチマークであるKitchen-Rを提案する。
アイザック・シムシミュレーターを使用し、500以上の複雑な言語命令を特徴とするデジタルツインとして開発されたKitchen-Rは、移動式マニピュレータロボットをサポートする。
本稿では,視覚言語モデルに基づくタスク計画戦略と拡散ポリシに基づく低レベル制御ポリシを含む,ベンチマークのベースライン手法を提案する。
トラジェクトリ収集システムも提供します。
本ベンチマークでは,計画モジュールの独立評価,制御ポリシの独立評価,システム全体の統合評価という,3つの評価モードに対して柔軟なフレームワークを提供する。
Kitchen-Rは、AI研究における重要なギャップを埋め、言語誘導ロボットエージェントのより総合的で現実的なベンチマークを可能にする。
関連論文リスト
- Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [65.30763239365928]
我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。
GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
論文 参考訳(メタデータ) (2025-08-07T17:59:44Z) - VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。
このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。
我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文 参考訳(メタデータ) (2025-07-07T15:31:36Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs [3.239200269731315]
無人航空機(UAV)をベースとした身体エージェントは、自律的なタスクにおいて大きな可能性を秘めている。
UAV-EA(UAV-Embodied Agents)の現在の評価手法は、標準化されたベンチマークの欠如によって制限されている。
我々は,UAV-EAを評価するために設計された,体系的で標準化されたベンチマークであるBEDI(Benchmark for Embodied Drone Intelligence)を提案する。
論文 参考訳(メタデータ) (2025-05-23T12:14:00Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - SPACE: A Python-based Simulator for Evaluating Decentralized Multi-Robot Task Allocation Algorithms [1.52292571922932]
本研究では,分散マルチロボットタスクアロケーション(MRTA)アルゴリズムの研究,評価,比較を支援するPythonベースのシミュレータであるSPACE(Swarm Planning and Control Evaluation)を提案する。
SPACEは、Pythonプラグインとして意思決定アルゴリズムを実装し、直感的なGUIでエージェントの動作木を簡単に構築し、エージェント間通信とローカルタスク認識のための組み込みサポートを活用することで、コアアルゴリズム開発を効率化する。
論文 参考訳(メタデータ) (2024-09-06T12:38:24Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。