論文の概要: Regularity as Intrinsic Reward for Free Play
- arxiv url: http://arxiv.org/abs/2312.01473v1
- Date: Sun, 3 Dec 2023 18:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:07:13.737792
- Title: Regularity as Intrinsic Reward for Free Play
- Title(参考訳): フリープレイにおける本質的リワードとしての正規性
- Authors: Cansu Sancaktar, Justus Piater, Georg Martius
- Abstract要約: 本稿では,本質的な強化学習のための新たな報奨信号として正規性を提案する。
Intrinsic Reward (RaIR) として正規性を一般化した定式化により,モデルベース強化学習内での運用が可能となった。
- 参考スコア(独自算出の注目度): 24.29379265146469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose regularity as a novel reward signal for intrinsically-motivated
reinforcement learning. Taking inspiration from child development, we postulate
that striving for structure and order helps guide exploration towards a
subspace of tasks that are not favored by naive uncertainty-based intrinsic
rewards. Our generalized formulation of Regularity as Intrinsic Reward (RaIR)
allows us to operationalize it within model-based reinforcement learning. In a
synthetic environment, we showcase the plethora of structured patterns that can
emerge from pursuing this regularity objective. We also demonstrate the
strength of our method in a multi-object robotic manipulation environment. We
incorporate RaIR into free play and use it to complement the model's epistemic
uncertainty as an intrinsic reward. Doing so, we witness the autonomous
construction of towers and other regular structures during free play, which
leads to a substantial improvement in zero-shot downstream task performance on
assembly tasks.
- Abstract(参考訳): 本研究は本質的強化学習のための新しい報奨信号として正規性を提案する。
子どもの発達からインスピレーションを得て、構造と秩序への努力は、不確実性に基づく内在的な報酬に好まれないタスクのサブスペースへの探索を導くのに役立つと仮定する。
Intrinsic Reward (RaIR) として正規性を一般化した定式化により,モデルに基づく強化学習の運用が可能となった。
合成環境では、この規則性目標を追求することで生じる多くの構造化パターンを紹介します。
また,多目的ロボット操作環境において,本手法の強みを示す。
我々は、RaIRをフリープレイに組み込んで、それを用いて、本質的な報酬として、モデルの認識の不確実性を補う。
フリープレイ中に塔やその他のレギュラー構造の自律的な構築を目撃し、組立作業におけるゼロショットダウンストリームタスクのパフォーマンスを大幅に改善する。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Foundation Models for Semantic Novelty in Reinforcement Learning [32.707788771181676]
我々の本質的な報酬は、ターゲットのRLタスクの微調整や学習なしに、事前訓練されたCLIP埋め込みに基づいて定義されます。
CLIPをベースとした本質的な報酬は意味論的に意味のある状態への探索を推進し、スパース・リワード・プロシージャ生成環境への挑戦において最先端の手法より優れていることを実証する。
論文 参考訳(メタデータ) (2022-11-09T13:34:45Z) - Reward Learning using Structural Motifs in Inverse Reinforcement
Learning [3.04585143845864]
逆強化学習(textitIRL)の問題は、ロボティクス、認知、健康といった分野において、ここ数年で急速に進化してきた。
エージェントの報酬関数の学習における現在のIRL手法の非効率性について検討する。
本稿では、まずタスクの(近似的な)構造を有限状態オートマトン(FSA)として学習し、その構造モチーフを用いてIRL問題を解決する新しいIRL法SMIRLを提案する。
論文 参考訳(メタデータ) (2022-09-25T18:34:59Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。