Fugu-MT 論文翻訳(概要): Closed Loop Interactive Embodied Reasoning for Robot Manipulation

論文の概要: Closed Loop Interactive Embodied Reasoning for Robot Manipulation

arxiv url: http://arxiv.org/abs/2404.15194v1
Date: Tue, 23 Apr 2024 16:33:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 12:53:16.049792
Title: Closed Loop Interactive Embodied Reasoning for Robot Manipulation
Title（参考訳）: ロボットマニピュレーションのためのループ型対話型共振器
Authors: Michal Nazarczuk, Jan Kristof Behrens, Karla Stepanova, Matej Hoffmann, Krystian Mikolajczyk,
Abstract要約: 身体的推論システムは、ロボットハードウェアと認知プロセスを統合して複雑なタスクを実行する。我々は,MuJoCo物理エンジンと高品質ブレンダーを利用した新しいシミュレーション環境を提案する。視覚と身体の同時計測を必要とする10種類の多段階推論シナリオからなる新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 17.732550906162192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied reasoning systems integrate robotic hardware and cognitive processes to perform complex tasks typically in response to a natural language query about a specific physical environment. This usually involves changing the belief about the scene or physically interacting and changing the scene (e.g. 'Sort the objects from lightest to heaviest'). In order to facilitate the development of such systems we introduce a new simulating environment that makes use of MuJoCo physics engine and high-quality renderer Blender to provide realistic visual observations that are also accurate to the physical state of the scene. Together with the simulator we propose a new benchmark composed of 10 classes of multi-step reasoning scenarios that require simultaneous visual and physical measurements. Finally, we develop a new modular Closed Loop Interactive Reasoning (CLIER) approach that takes into account the measurements of non-visual object properties, changes in the scene caused by external disturbances as well as uncertain outcomes of robotic actions. We extensively evaluate our reasoning approach in simulation and in the real world manipulation tasks with a success rate above 76% and 64%, respectively.
Abstract（参考訳）: 身体的推論システムは、ロボットハードウェアと認知プロセスを統合して、特定の物理的環境に関する自然言語クエリに応答して、複雑なタスクを実行する。これは通常、シーンについての信念を変更したり、物理的に相互作用したり、シーンを変更したりする(例:「最も軽いものから重いものへ」)。このようなシステムの開発を容易にするために,MuJoCo物理エンジンと高品質レンダラーブレンダーを用いたシミュレーション環境を導入する。シミュレータとともに,視覚と身体の同時計測を必要とする10種類の多段階推論シナリオからなる新しいベンチマークを提案する。最後に,非視覚的物体特性の測定,外乱によるシーンの変化,ロボット動作の不確実な結果を考慮した,新しいモジュラー・クローズドループ・インタラクティブ・推論(CLIER)手法を開発した。シミュレーションおよび実世界の操作タスクにおける推論手法を,それぞれ76%,64%以上の成功率で広く評価した。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
AdaManip: Adaptive Articulated Object Manipulation Environments and Policy Learning [25.331956706253614]
人工物体操作は、ロボットが現実世界のシナリオで様々なタスクを遂行する上で重要な機能である。音声オブジェクトの以前のデータセットとシミュレーション環境は、主に単純な操作機構に焦点を合わせてきた。そこで我々は,新しいオブジェクト操作環境を構築し,それを9つのカテゴリのオブジェクトに装備する。環境とオブジェクトに基づいて,適応的な実演コレクションと3次元視覚拡散に基づく模倣学習パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-16T13:45:10Z)
One to rule them all: natural language to bind communication, perception and action [0.9302364070735682]
本稿では,Large Language Models (LLMs) によるコミュニケーション,知覚,計画を統合したロボット行動計画のための高度なアーキテクチャを提案する。 Planner Moduleはシステムの中核であり、修正されたReActフレームワークに組み込み、ユーザーコマンドの解釈と実行にLLMが使用される。修正されたReActフレームワークは、リアルタイムな環境認識と身体行動の結果を提供することにより、実行スペースをさらに強化する。
論文参考訳（メタデータ） (2024-11-22T16:05:54Z)
Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting [22.40115216094332]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文参考訳（メタデータ） (2024-11-19T12:52:21Z)
Dynamics as Prompts: In-Context Learning for Sim-to-Real System Identifications [23.94013806312391]
そこで本研究では,テキスト内学習を用いてシミュレーション環境パラメータを動的に調整する手法を提案する。オブジェクトスクーピングとテーブルエアホッケーという2つのタスクにまたがるアプローチを検証する。提案手法は,ロボットの動的現実シナリオへの展開を推し進め,効率的かつスムーズなシステム識別を実現する。
論文参考訳（メタデータ） (2024-10-27T07:13:38Z)
M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes [66.44171200767839]
モバイル操作タスクのための全身動作生成のベンチマークであるM3Benchを提案する。 M3Benchは、その構成、環境制約、タスクの目的を理解するために、実施エージェントを必要とする。 M3Benchは119の多様なシーンにまたがる30kのオブジェクト再構成タスクを備えており、新たに開発したM3BenchMakerによって生成された専門家によるデモを提供する。
論文参考訳（メタデータ） (2024-10-09T08:38:21Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。 MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文参考訳（メタデータ） (2024-02-01T02:43:20Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors [69.75711933065378]
ヘッドセットとコントローラーのポーズは,高度に制約された環境においても,現実的なフルボディのポーズを生成可能であることを示す。本稿では,環境表現,接触報酬,シーンランダム化の3つの特徴について論じる。
論文参考訳（メタデータ） (2023-06-09T04:40:38Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)
Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。 RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-09-11T16:28:25Z)
Inferring Articulated Rigid Body Dynamics from RGBD Video [18.154013621342266]
我々は,逆レンダリングと微分可能なシミュレーションを組み合わせるパイプラインを導入し,実世界の調音機構のディジタルツインを作成する。本手法はロボットが操作する関節機構のキネマティックツリーを正確に再構築する。
論文参考訳（メタデータ） (2022-03-20T08:19:02Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。 TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文参考訳（メタデータ） (2020-07-09T17:33:27Z)
Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文参考訳（メタデータ） (2020-04-30T19:35:54Z)
SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文参考訳（メタデータ） (2020-03-19T00:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。