論文の概要: Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions
- arxiv url: http://arxiv.org/abs/2501.04228v2
- Date: Thu, 09 Jan 2025 01:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 10:39:56.426558
- Title: Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions
- Title(参考訳): リワードとしての制約--リワード機能を持たないロボットの強化学習
- Authors: Yu Ishihara, Noriaki Takasugi, Kotaro Kawakami, Masaya Kinoshita, Kazumi Aoyama,
- Abstract要約: 強化学習は複雑なロボット行動を生成するための重要なアルゴリズムとなっている。
このような振る舞いを学習するには、タスクを記述する報酬関数を設計する必要がある。
本稿では,CaR(Constraints as Rewards)の概念を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Reinforcement learning has become an essential algorithm for generating complex robotic behaviors. However, to learn such behaviors, it is necessary to design a reward function that describes the task, which often consists of multiple objectives that needs to be balanced. This tuning process is known as reward engineering and typically involves extensive trial-and-error. In this paper, to avoid this trial-and-error process, we propose the concept of Constraints as Rewards (CaR). CaR formulates the task objective using multiple constraint functions instead of a reward function and solves a reinforcement learning problem with constraints using the Lagrangian-method. By adopting this approach, different objectives are automatically balanced, because Lagrange multipliers serves as the weights among the objectives. In addition, we will demonstrate that constraints, expressed as inequalities, provide an intuitive interpretation of the optimization target designed for the task. We apply the proposed method to the standing-up motion generation task of a six-wheeled-telescopic-legged robot and demonstrate that the proposed method successfully acquires the target behavior, even though it is challenging to learn with manually designed reward functions.
- Abstract(参考訳): 強化学習は複雑なロボット行動を生成するための重要なアルゴリズムとなっている。
しかし、そのような振る舞いを学ぶためには、しばしばバランスをとる必要がある複数の目的からなるタスクを記述する報酬関数を設計する必要がある。
このチューニングプロセスは報奨工学と呼ばれ、典型的には広範な試行錯誤を伴う。
本稿では,この試行錯誤を回避するために,CaR(Constraints as Rewards)の概念を提案する。
CaRは、報酬関数の代わりに複数の制約関数を用いてタスク目標を定式化し、ラグランジアン・メソッドを用いた制約を用いた強化学習問題を解く。
このアプローチを採用することで、ラグランジュ乗算器が目的間の重みとして機能するため、異なる目的が自動的に均衡する。
さらに、不等式として表現された制約が、タスク用に設計された最適化対象の直感的な解釈を提供することを示す。
提案手法は6輪手足ロボットの立位動作生成タスクに適用し,手作業による報酬関数の学習が困難であるにもかかわらず,目標動作の獲得に成功していることを示す。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - CLIP-Motion: Learning Reward Functions for Robotic Actions Using
Consecutive Observations [1.03590082373586]
本稿では,CLIPモデルを用いたロボット動作に対する報酬関数の学習手法を提案する。
当社のアプローチでは,状態特徴と画像入力を効果的に処理するCLIPの機能を活用することで,この問題を回避することができる。
論文 参考訳(メタデータ) (2023-11-06T19:48:03Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Direct Behavior Specification via Constrained Reinforcement Learning [12.679780444702573]
CMDPは、一連の行動制約を順守しながら、ゴールベースのタスクを解決するように適応することができる。
ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2021-12-22T21:12:28Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。