論文の概要: CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous
Control
- arxiv url: http://arxiv.org/abs/2211.15205v1
- Date: Mon, 28 Nov 2022 10:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:42:30.073109
- Title: CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous
Control
- Title(参考訳): CIM:スパース逆連続制御のための制約付き固有モチベーション
- Authors: Xiang Zheng, Xingjun Ma, Cong Wang
- Abstract要約: 内因性モチベーション(intrinsicmotive)は、外因性報酬(extrinsic rewards)の不足や不足を伴う強化学習タスクを解決するための有望な手法である。
固有のモチベーションを実装するには2つの技術的課題がある。
本稿では,制約付き内在的目標を構築するために,容易に達成可能なタスク前処理を活用するための制約付き内在的モチベーション(CIM)を提案する。
我々はCIM手法が最先端手法よりも性能とサンプル効率を大幅に向上させることを実証的に示す。
- 参考スコア(独自算出の注目度): 25.786085434943338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic motivation is a promising exploration technique for solving
reinforcement learning tasks with sparse or absent extrinsic rewards. There
exist two technical challenges in implementing intrinsic motivation: 1) how to
design a proper intrinsic objective to facilitate efficient exploration; and 2)
how to combine the intrinsic objective with the extrinsic objective to help
find better solutions. In the current literature, the intrinsic objectives are
all designed in a task-agnostic manner and combined with the extrinsic
objective via simple addition (or used by itself for reward-free pre-training).
In this work, we show that these designs would fail in typical sparse-reward
continuous control tasks. To address the problem, we propose Constrained
Intrinsic Motivation (CIM) to leverage readily attainable task priors to
construct a constrained intrinsic objective, and at the same time, exploit the
Lagrangian method to adaptively balance the intrinsic and extrinsic objectives
via a simultaneous-maximization framework. We empirically show, on multiple
sparse-reward continuous control tasks, that our CIM approach achieves greatly
improved performance and sample efficiency over state-of-the-art methods.
Moreover, the key techniques of our CIM can also be plugged into existing
methods to boost their performances.
- Abstract(参考訳): 内在的動機付けは、希薄な報酬または欠如した報酬で強化学習タスクを解決するための有望な探索技術である。
固有のモチベーションを実装するには2つの技術的課題があります。
1)効率的な探査を促進するための適切な本質的目標の設計方法
2)本質的な目的と外生的な目的を組み合わせて、より良い解決策を見つける方法。
現在の文献では、本質的な目的はすべてタスクに依存しない方法で設計され、単純な追加(あるいは報酬のない事前訓練に自身で使用する)によって外生的な目的と組み合わせられている。
本研究では、これらの設計が典型的なスパース逆連続制御タスクで失敗することを示す。
そこで本研究では,制約付き本質的目標を構築するために,容易に達成可能なタスクプリエントを活用するための制約付き本質的モチベーション(cim)を提案し,同時に,本質的目標と外生的目標を同時最大化フレームワークで適応的にバランスさせるラグランジアン法を活用した。
我々は、複数のスパース逆連続制御タスクにおいて、CIM手法が最先端手法よりも性能とサンプル効率を大幅に向上させることを示す。
さらに、CIMの重要なテクニックを既存のメソッドにプラグインしてパフォーマンスを向上させることも可能です。
関連論文リスト
- Constrained Intrinsic Motivation for Reinforcement Learning [28.6289921495116]
Intrinsic Motivation (IM) は、Reward-Free Pre-Training タスクの強化学習や、Intrinsic Motivation (EIM) タスクの探索に使用される。
既存のIM手法は、静的スキル、限られた状態カバレッジ、RFPTタスクのサンプル非効率、EIMタスクのサブ最適性に悩まされている。
本稿では,RFPTタスクとEIMタスクに対するemphConstrained Intrinsic Motivation(CIM)を提案する。
論文 参考訳(メタデータ) (2024-07-12T13:20:52Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Regularized Soft Actor-Critic for Behavior Transfer Learning [10.519534498340482]
既存の模倣学習手法は主に、エージェントを実演行動に効果的に模倣することに焦点を当てている。
本稿では,主課題と模倣課題を定式化する正則化ソフトアクター・クライト法を提案する。
ビデオゲームアプリケーションに関連する連続制御タスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-27T07:52:04Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。