論文の概要: Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward
- arxiv url: http://arxiv.org/abs/2212.01509v1
- Date: Sat, 3 Dec 2022 02:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:19:39.781577
- Title: Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward
- Title(参考訳): スパース・リワード下におけるミスマッチ課題からの証明による強化学習
- Authors: Yanjiang Guo, Jingyue Gao, Zheng Wu, Chengming Shi, Jianyu Chen
- Abstract要約: 強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
- 参考スコア(独自算出の注目度): 7.51772160511614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning often suffer from the sparse reward issue in
real-world robotics problems. Learning from demonstration (LfD) is an effective
way to eliminate this problem, which leverages collected expert data to aid
online learning. Prior works often assume that the learning agent and the
expert aim to accomplish the same task, which requires collecting new data for
every new task. In this paper, we consider the case where the target task is
mismatched from but similar with that of the expert. Such setting can be
challenging and we found existing LfD methods can not effectively guide
learning in mismatched new tasks with sparse rewards. We propose conservative
reward shaping from demonstration (CRSfD), which shapes the sparse rewards
using estimated expert value function. To accelerate learning processes, CRSfD
guides the agent to conservatively explore around demonstrations. Experimental
results of robot manipulation tasks show that our approach outperforms baseline
LfD methods when transferring demonstrations collected in a single task to
other different but similar tasks.
- Abstract(参考訳): 強化学習は、現実世界のロボティクス問題においてスパース報酬の問題に悩まされることが多い。
learning from demonstration(lfd)は、オンライン学習を支援するために収集された専門家データを活用する、この問題を解決する効果的な方法である。
事前の作業では、学習エージェントと専門家が同じタスクを達成するために新しいタスクごとに新しいデータを集める必要があると仮定することが多い。
本稿では,対象タスクと専門家のタスクが一致していない場合について考察する。
このような設定は困難であり、既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的にガイドできないことがわかった。
本稿では,評価値関数を用いてスパース報酬を形作るデモ(CRSfD)の保守的報酬形成を提案する。
学習プロセスを加速するために、CRSfDはエージェントにデモを保守的に探索するよう誘導する。
ロボット操作タスクの実験結果から,本手法は1つのタスクで収集したデモを他のタスクに転送する際に,ベースラインのLfD手法よりも優れていた。
関連論文リスト
- Efficient Active Imitation Learning with Random Network Distillation [8.517915878774756]
Random Network Distillation DAgger (RND-DAgger) は、新しいアクティブな模倣学習法である。
学習した状態ベースのアウト・オブ・ディストリビューション(out-of-distribution)手段を使用して介入をトリガーすることで、専門家によるクエリを制限します。
RND-DAggerを従来の模倣学習や3Dビデオゲームやロボット作業におけるアクティブなアプローチに対して評価する。
論文 参考訳(メタデータ) (2024-11-04T08:50:52Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - In Defense of the Learning Without Forgetting for Task Incremental
Learning [91.3755431537592]
破滅的な忘れは、継続的な学習システムへの道のりにおける大きな課題の1つだ。
本稿では, タスクインクリメンタルシナリオにおいて, 正しいアーキテクチャと標準的な拡張セットを併用して, LwF が得られた結果が最新のアルゴリズムを上回り, タスクインクリメンタルシナリオが実現されたことを示す。
論文 参考訳(メタデータ) (2021-07-26T16:23:13Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Automatic Curricula via Expert Demonstrations [6.651864489482536]
本稿では、強化学習(RL)アプローチとして、エキスパートデモ(ACED)による自動カリキュラムを提案する。
ACEDは、デモンストレーションをセクションに分割し、トレーニングエピソードを異なるセクションからサンプリングされた状態に初期化することによって、専門家のデモ軌跡からキュリキュラを抽出する。
本稿では,ACEDと行動クローニングを組み合わせることで,最大1個の実演と20個の実演で積み重ねタスクを学習できることを示す。
論文 参考訳(メタデータ) (2021-06-16T22:21:09Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。