論文の概要: Deep Apprenticeship Learning for Playing Games
- arxiv url: http://arxiv.org/abs/2205.07959v1
- Date: Mon, 16 May 2022 19:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 12:35:47.316250
- Title: Deep Apprenticeship Learning for Playing Games
- Title(参考訳): ゲームで遊ぶための深い見習い学習
- Authors: Dejan Markovikj
- Abstract要約: 複雑な多次元タスクのエキスパート行動に基づく学習モデルの設計の可能性について検討する。
本稿では,強化学習における教師あり学習技術に関する従来の研究をもとに,新しい見習い学習手法を提案する。
本手法は,アタリゲームからの映像フレームに適用し,人工エージェントによるゲームプレイの指導を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the last decade, deep learning has achieved great success in machine
learning tasks where the input data is represented with different levels of
abstractions. Driven by the recent research in reinforcement learning using
deep neural networks, we explore the feasibility of designing a learning model
based on expert behaviour for complex, multidimensional tasks where reward
function is not available. We propose a novel method for apprenticeship
learning based on the previous research on supervised learning techniques in
reinforcement learning. Our method is applied to video frames from Atari games
in order to teach an artificial agent to play those games. Even though the
reported results are not comparable with the state-of-the-art results in
reinforcement learning, we demonstrate that such an approach has the potential
to achieve strong performance in the future and is worthwhile for further
research.
- Abstract(参考訳): 過去10年間で、ディープラーニングは、入力データが異なるレベルの抽象化で表現される機械学習タスクで大きな成功を収めました。
深層ニューラルネットワークを用いた強化学習の最近の研究により、報酬関数が利用できない複雑な多次元タスクに対して、専門家の振る舞いに基づく学習モデルの設計の可能性を検討する。
本研究では,強化学習における教師付き学習手法に関する先行研究に基づいて,新しい見習い学習手法を提案する。
本手法は,アタリゲームからの映像フレームに適用し,人工エージェントによるゲームプレイの指導を行う。
報告された結果は、強化学習における最先端の成果とは比較にならないが、このようなアプローチが将来高いパフォーマンスを達成できる可能性があり、さらなる研究に価値があることを実証する。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Diagnosing and exploiting the computational demands of videos games for
deep reinforcement learning [13.98405611352641]
本稿では,タスクの知覚的および強化的学習要求を測定するツールであるLearning Challenge Diagnosticator (LCD)を紹介する。
我々はLCDを用いて、Procgenベンチマークの新たな課題の分類を発見し、これらの予測が信頼性が高く、アルゴリズム開発を指導できることを示す。
論文 参考訳(メタデータ) (2023-09-22T21:03:33Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - D2RL: Deep Dense Architectures in Reinforcement Learning [47.67475810050311]
コンピュータビジョンと生成モデルにおけるアーキテクチャ選択の成功からインスピレーションを得ます。
各種ロボット学習ベンチマーク環境における強化学習における深層ネットワークと高密度接続の利用について検討した。
論文 参考訳(メタデータ) (2020-10-19T01:27:07Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。