論文の概要: Bayesian Q-learning With Imperfect Expert Demonstrations
- arxiv url: http://arxiv.org/abs/2210.01800v1
- Date: Sat, 1 Oct 2022 17:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:57:52.437856
- Title: Bayesian Q-learning With Imperfect Expert Demonstrations
- Title(参考訳): 不完全な専門家によるベイズ型q-learning
- Authors: Fengdi Che, Xiru Zhu, Doina Precup, David Meger, and Gregory Dudek
- Abstract要約: そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
- 参考スコア(独自算出の注目度): 56.55609745121237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guided exploration with expert demonstrations improves data efficiency for
reinforcement learning, but current algorithms often overuse expert
information. We propose a novel algorithm to speed up Q-learning with the help
of a limited amount of imperfect expert demonstrations. The algorithm avoids
excessive reliance on expert data by relaxing the optimal expert assumption and
gradually reducing the usage of uninformative expert data. Experimentally, we
evaluate our approach on a sparse-reward chain environment and six more
complicated Atari games with delayed rewards. With the proposed methods, we can
achieve better results than Deep Q-learning from Demonstrations (Hester et al.,
2017) in most environments.
- Abstract(参考訳): 専門家によるガイド付き探索は強化学習のためのデータ効率を向上させるが、現在のアルゴリズムでは専門家情報を使い過ぎていることが多い。
限られた量の不完全な実演の助けを借りて,q-learningを高速化する新しいアルゴリズムを提案する。
このアルゴリズムは、最適な専門家仮定を緩和し、非形式的専門家データの使用を徐々に減らし、専門家データへの過度な依存を避ける。
実験では, スパース・リワード・チェーン環境とより複雑な6つのatariゲームに対する評価を行った。
提案手法では,ほとんどの環境において,実演(hester et al., 2017)による深いq学習よりも優れた結果が得られる。
関連論文リスト
- Extrinsicaly Rewarded Soft Q Imitation Learning with Discriminator [0.0]
行動クローンのような教師付き学習手法はサンプリングデータを必要としないが、通常は分散シフトに悩まされる。
ソフトQ模倣学習(SQIL)はこの問題に対処し,行動クローンとソフトQ学習を一定の報酬と組み合わせることで効率よく学習できることを示した。
論文 参考訳(メタデータ) (2024-01-30T06:22:19Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - A Review of Meta-level Learning in the Context of Multi-component,
Multi-level Evolving Prediction Systems [6.810856082577402]
データから有用なパターンを抽出する自動的あるいは半自動的な方法の調査の必要性が高まっている。
与えられた問題に対する学習方法の最も適切なマッピングを見つけるには、深い専門家の知識と広範な計算資源が必要である。
データセットに最適な学習アルゴリズムをアドバイスできるインテリジェントなレコメンデーションエンジンが必要だ。
論文 参考訳(メタデータ) (2020-07-17T14:14:37Z) - Discriminator Soft Actor Critic without Extrinsic Rewards [0.30586855806896046]
少数の専門家データとサンプリングデータから、未知の状態においてうまく模倣することは困難である。
本稿では,このアルゴリズムを分散シフトに対してより堅牢にするために,DSAC(Distriminator Soft Actor Critic)を提案する。
論文 参考訳(メタデータ) (2020-01-19T10:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。