Fugu-MT 論文翻訳(概要): Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning

論文の概要: Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning

arxiv url: http://arxiv.org/abs/2412.00086v1
Date: Wed, 27 Nov 2024 03:33:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.348119
Title: Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning
Title（参考訳）: モデル予測強化学習による動的非定常物体輸送
Authors: Neel Jawale, Byron Boots, Balakumar Sundaralingam, Mohak Bhardwaj,
Abstract要約: バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
参考スコア（独自算出の注目度）: 24.079032278280447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the problem of teaching a robot manipulator to perform dynamic non-prehensile object transport, also known as the `robot waiter' task, from a limited set of real-world demonstrations. We propose an approach that combines batch reinforcement learning (RL) with model-predictive control (MPC) by pretraining an ensemble of value functions from demonstration data, and utilizing them online within an uncertainty-aware MPC scheme to ensure robustness to limited data coverage. Our approach is straightforward to integrate with off-the-shelf MPC frameworks and enables learning solely from task space demonstrations with sparsely labeled transitions, while leveraging MPC to ensure smooth joint space motions and constraint satisfaction. We validate the proposed approach through extensive simulated and real-world experiments on a Franka Panda robot performing the robot waiter task and demonstrate robust deployment of value functions learned from 50-100 demonstrations. Furthermore, our approach enables generalization to novel objects not seen during training and can improve upon suboptimal demonstrations. We believe that such a framework can reduce the burden of providing extensive demonstrations and facilitate rapid training of robot manipulators to perform non-prehensile manipulation tasks. Project videos and supplementary material can be found at: https://sites.google.com/view/cvmpc.
Abstract（参考訳）: 本研究では,ロボットマニピュレータによる動的非包括的物体輸送,いわゆる 'robot waiter' タスクの実行を実世界の限られたデモから行うことの問題点について検討する。本稿では,実演データから価値関数のアンサンブルを事前学習することで,バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせる手法を提案する。提案手法は市販のMPCフレームワークと簡単に統合でき,スムーズな共同作業と制約満足度を確保するためにMPCを活用しながら,スムーズなラベル付き遷移を伴うタスクスペースのデモンストレーションのみから学習することができる。提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験を通じて検証し,50～100回のデモから得られた価値関数のロバストな展開を実証する。さらに,本手法により,トレーニング中に見えない新しい物体への一般化が可能となり,準最適実演における改善が可能となった。このようなフレームワークは、広範囲なデモンストレーションを提供することの負担を軽減し、非包括的操作タスクを行うロボットマニピュレータの迅速な訓練を促進することができると信じている。プロジェクトビデオと追加資料は、https://sites.google.com/view/cvmpc.comで見ることができる。

関連論文リスト

Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文参考訳（メタデータ） (2025-04-17T08:48:23Z)
Transferable Latent-to-Latent Locomotion Policy for Efficient and Versatile Motion Control of Diverse Legged Robots [9.837559106057814]
Pretrain-and-finetuneパラダイムは、新しいロボットエンティティやタスクに効率的に適応するための、有望なアプローチを提供する。本稿では,タスク固有の観察エンコーダやアクションデコーダとともに,移動可能な潜時移動ポリシーを事前訓練する潜時学習フレームワークを提案する。提案手法は広範囲なシミュレーションと実世界の実験により検証され、事前学習された潜伏移動政策が、効率を向上した新しいロボットエンティティやタスクに効果的に一般化できることが実証された。
論文参考訳（メタデータ） (2025-03-22T03:01:25Z)
Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-28T01:25:37Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation [36.43143326197769]
Track-Any-Point (TAP) モデルは、デモ中の関連する動きを分離し、低レベルのコントローラをパラメータ化して、シーン構成の変化をまたいでこの動きを再現する。この結果は,形状整合,積み重ね,さらには接着や物体の付着といった完全な経路追従といった複雑な物体配置タスクを解くことのできるロバストなロボットポリシーで示される。
論文参考訳（メタデータ） (2023-08-30T11:57:04Z)
GAN-MPC: Training Model Predictive Controllers with Parameterized Cost Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-05-30T15:15:30Z)
Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文参考訳（メタデータ） (2020-12-12T05:30:35Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。