論文の概要: Align-RUDDER: Learning From Few Demonstrations by Reward Redistribution
- arxiv url: http://arxiv.org/abs/2009.14108v2
- Date: Tue, 28 Jun 2022 18:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:09:17.799399
- Title: Align-RUDDER: Learning From Few Demonstrations by Reward Redistribution
- Title(参考訳): Align-RUDDER: Reward reistribution によるいくつかのデモから学ぶ
- Authors: Vihang P. Patil, Markus Hofmarcher, Marius-Constantin Dinu, Matthias
Dorfer, Patrick M. Blies, Johannes Brandstetter, Jose A. Arjona-Medina, Sepp
Hochreiter
- Abstract要約: 報酬を再分配するAlign-RUDDERを効果的に導入し、少数の実演での学習を大幅に改善する。
Minecraft ObtainDiamondタスクでは、Align-RUDDERはダイヤモンドを採掘できるが、あまり多くはない。
- 参考スコア(独自算出の注目度): 6.396567712417841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms require many samples when solving complex
hierarchical tasks with sparse and delayed rewards. For such complex tasks, the
recently proposed RUDDER uses reward redistribution to leverage steps in the
Q-function that are associated with accomplishing sub-tasks. However, often
only few episodes with high rewards are available as demonstrations since
current exploration strategies cannot discover them in reasonable time. In this
work, we introduce Align-RUDDER, which utilizes a profile model for reward
redistribution that is obtained from multiple sequence alignment of
demonstrations. Consequently, Align-RUDDER employs reward redistribution
effectively and, thereby, drastically improves learning on few demonstrations.
Align-RUDDER outperforms competitors on complex artificial tasks with delayed
rewards and few demonstrations. On the Minecraft ObtainDiamond task,
Align-RUDDER is able to mine a diamond, though not frequently. Code is
available at https://github.com/ml-jku/align-rudder. YouTube:
https://youtu.be/HO-_8ZUl-UY
- Abstract(参考訳): 強化学習アルゴリズムは、スパースと遅延報酬で複雑な階層的タスクを解決する際に多くのサンプルを必要とする。
このような複雑なタスクに対して、最近提案されたRUDDERは、サブタスクの達成に関連するQ-関数のステップを活用するために報酬再分配を利用する。
しかし、現在の探査戦略では妥当な時間で発見できないため、報酬の高いエピソードがデモとして利用できることが多い。
本稿では,実演の複数シーケンスアライメントから得られる報酬再分配のためのプロファイルモデルであるAlign-RUDDERを紹介する。
その結果、Align-RUDDERは報酬再分配を効果的に採用し、その結果、少数のデモンストレーションでの学習を大幅に改善する。
align-rudderは、報酬の遅れとデモの少ない複雑な人工的なタスクの競合を上回っている。
Minecraft ObtainDiamondタスクでは、Align-RUDDERはダイヤモンドを採掘できるが、あまり多くはない。
コードはhttps://github.com/ml-jku/align-rudderで入手できる。
YouTube: https://youtu.be/HO-_8zul-UY
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - DrS: Learning Reusable Dense Rewards for Multi-Stage Tasks [26.730889757506915]
我々は,多段階タスクにおける再利用可能な高密度報酬を学習するための新しいアプローチであるDrS(Dense reward Learning from Stages)を提案する。
タスクのステージ構造を活用することで、DrSはスパース報酬やデモから高品質の高密度報酬を学ぶ。
1000以上のタスク変異を持つ3つの物理的ロボット操作タスクファミリーの実験は、学習した報酬を目に見えないタスクで再利用できることを実証している。
論文 参考訳(メタデータ) (2024-04-25T17:28:33Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement
Learning [36.93626032028901]
スパースと遅延した報酬は、単一のエージェント強化学習に挑戦する。
本稿では,スパースと遅延報酬を再分配するための補助的損失を持つニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。
論文 参考訳(メタデータ) (2022-10-31T17:54:51Z) - Context-Hierarchy Inverse Reinforcement Learning [30.71220625227959]
逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。
本稿では、コンテキスト階層IRL(CHIRL)を提案する。これは、コンテキストを利用してIRLをスケールアップし、複雑な振る舞いの報酬関数を学習する新しいIRLアルゴリズムである。
CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。
論文 参考訳(メタデータ) (2022-02-25T10:29:05Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。