論文の概要: Robotic Skill Diversification via Active Mutation of Reward Functions in Reinforcement Learning During a Liquid Pouring Task
- arxiv url: http://arxiv.org/abs/2509.18463v1
- Date: Mon, 22 Sep 2025 22:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.607651
- Title: Robotic Skill Diversification via Active Mutation of Reward Functions in Reinforcement Learning During a Liquid Pouring Task
- Title(参考訳): 液体汚染作業中の強化学習におけるリワード関数の能動変異によるロボットスキルの多様性
- Authors: Jannick van Buuren, Roberto Giglio, Loris Roveda, Luka Peternel,
- Abstract要約: 本稿では,強化学習における報酬関数の意図的な変異が,ロボット操作作業における多彩なスキルのバリエーションをいかに生み出すかを検討する。
この研究はNVIDIA Isaac Simで作られたシミュレーション環境で実施された。
セットアップには、容器に注ぐ必要がある液体の入ったガラスを持ったフランカ・エミカ・パンダのロボットアームが含まれていた。
- 参考スコア(独自算出の注目度): 2.1232547053555826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper explores how deliberate mutations of reward function in reinforcement learning can produce diversified skill variations in robotic manipulation tasks, examined with a liquid pouring use case. To this end, we developed a new reward function mutation framework that is based on applying Gaussian noise to the weights of the different terms in the reward function. Inspired by the cost-benefit tradeoff model from human motor control, we designed the reward function with the following key terms: accuracy, time, and effort. The study was performed in a simulation environment created in NVIDIA Isaac Sim, and the setup included Franka Emika Panda robotic arm holding a glass with a liquid that needed to be poured into a container. The reinforcement learning algorithm was based on Proximal Policy Optimization. We systematically explored how different configurations of mutated weights in the rewards function would affect the learned policy. The resulting policies exhibit a wide range of behaviours: from variations in execution of the originally intended pouring task to novel skills useful for unexpected tasks, such as container rim cleaning, liquid mixing, and watering. This approach offers promising directions for robotic systems to perform diversified learning of specific tasks, while also potentially deriving meaningful skills for future tasks.
- Abstract(参考訳): 本稿では,強化学習における報酬関数の意図的な変異が,ロボット操作作業における多彩なスキル変化をもたらすかを検討する。
そこで我々は,報奨関数の重み付けにガウス雑音を適用した新たな報奨関数変異フレームワークを開発した。
人間のモーター制御から得られる費用対効果トレードオフモデルに着想を得て, 報酬関数を, 精度, 時間, 労力といった重要な用語で設計した。
この研究はNVIDIAのIsaac Simが作ったシミュレーション環境で行われ、セットアップには、容器に注ぐ必要がある液体のガラスを持ったフランカ・エミカ・パンダのロボットアームが含まれていた。
強化学習アルゴリズムは、近似ポリシー最適化に基づく。
報奨関数における変異重みの異なる構成が学習方針にどう影響するかを系統的に検討した。
元々意図された注ぐタスクの実行のバリエーションから、コンテナリムのクリーニング、液体の混合、水処理といった予期せぬタスクに有用な新しいスキルまで、幅広い行動を示す。
このアプローチは、ロボットシステムが特定のタスクの多様な学習を行うための有望な方向を提供すると同時に、将来のタスクに有意義なスキルを導き出す可能性がある。
関連論文リスト
- A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。
我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。
この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-12T18:57:22Z) - Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation [0.9668407688201356]
本稿では,新しい運動能力を生み出すための基本方針獲得のためのマルチタスク強化学習アルゴリズムを提案する。
人間の感覚運動適応機構にインスパイアされた我々は,エンコーダデコーダネットワークとネットワーク選択を構築するための学習パイプラインを開発した。
論文 参考訳(メタデータ) (2023-08-31T05:26:14Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。