論文の概要: Diagnosing and exploiting the computational demands of videos games for
deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2309.13181v1
- Date: Fri, 22 Sep 2023 21:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:43:22.849237
- Title: Diagnosing and exploiting the computational demands of videos games for
deep reinforcement learning
- Title(参考訳): 深層強化学習のためのビデオゲームの計算要求の診断と活用
- Authors: Lakshmi Narasimhan Govindarajan, Rex G Liu, Drew Linsley, Alekh
Karkada Ashok, Max Reuter, Michael J Frank, Thomas Serre
- Abstract要約: 本稿では,タスクの知覚的および強化的学習要求を測定するツールであるLearning Challenge Diagnosticator (LCD)を紹介する。
我々はLCDを用いて、Procgenベンチマークの新たな課題の分類を発見し、これらの予測が信頼性が高く、アルゴリズム開発を指導できることを示す。
- 参考スコア(独自算出の注目度): 13.98405611352641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans learn by interacting with their environments and perceiving the
outcomes of their actions. A landmark in artificial intelligence has been the
development of deep reinforcement learning (dRL) algorithms capable of doing
the same in video games, on par with or better than humans. However, it remains
unclear whether the successes of dRL models reflect advances in visual
representation learning, the effectiveness of reinforcement learning algorithms
at discovering better policies, or both. To address this question, we introduce
the Learning Challenge Diagnosticator (LCD), a tool that separately measures
the perceptual and reinforcement learning demands of a task. We use LCD to
discover a novel taxonomy of challenges in the Procgen benchmark, and
demonstrate that these predictions are both highly reliable and can instruct
algorithmic development. More broadly, the LCD reveals multiple failure cases
that can occur when optimizing dRL algorithms over entire video game benchmarks
like Procgen, and provides a pathway towards more efficient progress.
- Abstract(参考訳): 人間は環境と相互作用し、行動の結果を知覚することで学習する。
人工知能のランドマークは、ビデオゲームで、人間と同等かそれ以上に、同じことをできるディープ強化学習(drl)アルゴリズムの開発である。
しかし、dRLモデルの成功が視覚表現学習の進歩を反映しているか、より優れたポリシーを発見するための強化学習アルゴリズムの有効性、あるいはその両方を反映しているかは明らかでない。
この課題に対処するために,タスクの知覚的および強化的学習要求を別々に測定する学習課題診断器(LCD)を導入する。
我々はLCDを用いて、Procgenベンチマークにおける課題の新しい分類を発見し、これらの予測が信頼性が高く、アルゴリズム開発を指導できることを示す。
より広範に、LCDは、Procgenのようなビデオゲームベンチマーク全体に対してdRLアルゴリズムを最適化する際に発生する複数の障害ケースを明らかにし、より効率的な進歩への道筋を提供する。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Deep Apprenticeship Learning for Playing Games [0.0]
複雑な多次元タスクのエキスパート行動に基づく学習モデルの設計の可能性について検討する。
本稿では,強化学習における教師あり学習技術に関する従来の研究をもとに,新しい見習い学習手法を提案する。
本手法は,アタリゲームからの映像フレームに適用し,人工エージェントによるゲームプレイの指導を行う。
論文 参考訳(メタデータ) (2022-05-16T19:52:45Z) - Machine versus Human Attention in Deep Reinforcement Learning Tasks [38.80270891345248]
タスク実行中の画素を解析することで、そのような訓練されたモデルの内面動作に光を当てた。
我々は,アタリゲームを学習する際,RLエージェントのサリエンシマップと,人間の専門家の視覚的注意モデルを比較した。
論文 参考訳(メタデータ) (2020-10-29T20:58:45Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Algorithms in Multi-Agent Systems: A Holistic Perspective from
Reinforcement Learning and Game Theory [2.5147566619221515]
近年では深い強化学習が顕著な成果を上げている。
最近の研究は、シングルエージェントのシナリオを越えて学習を検討し、マルチエージェントのシナリオを検討しています。
従来のゲーム理論アルゴリズムは、現代的なアルゴリズムと組み合わせた明るいアプリケーションの約束を示し、計算能力を高める。
論文 参考訳(メタデータ) (2020-01-17T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。