論文の概要: Reward Machine Inference for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2412.10096v1
- Date: Fri, 13 Dec 2024 12:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:40.032597
- Title: Reward Machine Inference for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための逆機械推論
- Authors: Mattijs Baert, Sam Leroux, Pieter Simoens,
- Abstract要約: Reward Machines (RM) は、RLが拡張された時間的地平線上でポリシーをトレーニングする能力を向上する。
本稿では,ロボット操作タスクの視覚的実演から直接RMを学習するための新しいLfD手法を提案する。
提案手法を視覚に基づく操作タスクに適用し,推論されたRMがタスク構造を正確に把握し,RLエージェントが最適なポリシーを効果的に学習できることを示す。
- 参考スコア(独自算出の注目度): 1.6135226672466307
- License:
- Abstract: Learning from Demonstrations (LfD) and Reinforcement Learning (RL) have enabled robot agents to accomplish complex tasks. Reward Machines (RMs) enhance RL's capability to train policies over extended time horizons by structuring high-level task information. In this work, we introduce a novel LfD approach for learning RMs directly from visual demonstrations of robotic manipulation tasks. Unlike previous methods, our approach requires no predefined propositions or prior knowledge of the underlying sparse reward signals. Instead, it jointly learns the RM structure and identifies key high-level events that drive transitions between RM states. We validate our method on vision-based manipulation tasks, showing that the inferred RM accurately captures task structure and enables an RL agent to effectively learn an optimal policy.
- Abstract(参考訳): 実証から学ぶ(LfD)と強化学習(RL)により、ロボットエージェントは複雑なタスクを達成できるようになった。
Reward Machines (RM) は、高レベルなタスク情報を構築することで、拡張タイム水平線上でポリシーをトレーニングするRLの能力を向上する。
本研究では,ロボット操作タスクの視覚的デモンストレーションから直接RMを学習するための新しいLfD手法を提案する。
従来の手法とは異なり、我々の手法では事前に定義された命題や、基礎となるスパース報酬信号の事前知識は必要としない。
代わりに、RM構造を共同で学習し、RM状態間の遷移を駆動する重要なハイレベル事象を特定する。
提案手法を視覚に基づく操作タスクに適用し,推論されたRMがタスク構造を正確に把握し,RLエージェントが最適なポリシーを効果的に学習できることを示す。
関連論文リスト
- Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文 参考訳(メタデータ) (2024-11-27T03:33:42Z) - Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward
Machines [30.161550541362487]
逐次線形時間論理式とReward Machines(LSRM)を用いた長寿命強化学習を提案する。
まず、線形時間論理(SLTL)を導入し、既存の線形時間論理言語を補足する。
次に、Reward Machines (RM) を用いて、高レベルイベントを符号化したタスクの構造的報酬関数を利用する。
論文 参考訳(メタデータ) (2021-11-18T02:02:08Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - ACNMP: Skill Transfer and Task Extrapolation through Learning from
Demonstration and Reinforcement Learning via Representation Sharing [5.06461227260756]
ACNMPは、異なる形態を持つロボット間のスキル伝達を実装するために使用できる。
本稿では,実際のロボット実験を通して,ACNMPの現実的適合性を示す。
論文 参考訳(メタデータ) (2020-03-25T11:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。