論文の概要: Action Space Shaping in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.00980v2
- Date: Tue, 26 May 2020 09:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 12:38:19.932571
- Title: Action Space Shaping in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における行動空間形成
- Authors: Anssi Kanervisto, Christian Scheller, Ville Hautam\"aki
- Abstract要約: 強化学習は、ビデオゲームを含む様々な学習環境における訓練エージェントで成功している。
我々は,これらの行動空間の修正について,ビデオゲーム環境における広範な実験を行うことで,洞察を得ることを目指している。
その結果、ドメイン固有のアクションの削除と継続的なアクションの離散化が、学習の成功に不可欠であることを示唆した。
- 参考スコア(独自算出の注目度): 7.508516104014916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been successful in training agents in various
learning environments, including video-games. However, such work modifies and
shrinks the action space from the game's original. This is to avoid trying
"pointless" actions and to ease the implementation. Currently, this is mostly
done based on intuition, with little systematic research supporting the design
decisions. In this work, we aim to gain insight on these action space
modifications by conducting extensive experiments in video-game environments.
Our results show how domain-specific removal of actions and discretization of
continuous actions can be crucial for successful learning. With these insights,
we hope to ease the use of RL in new environments, by clarifying what
action-spaces are easy to learn.
- Abstract(参考訳): 強化学習(rl)はビデオゲームを含む様々な学習環境におけるエージェントの訓練に成功している。
しかし、そのような作業はゲームのオリジナルからアクション空間を変更・縮小する。
これは、"無意味"なアクションを避け、実装を簡単にすることです。
現在、これはほとんど直観に基づいて行われており、設計決定を支持する体系的な研究はほとんどない。
本研究は,ゲーム環境における広範囲な実験により,これらの動作空間の修正に関する洞察を得ることを目的としている。
その結果、ドメイン固有のアクションの削除と継続的なアクションの離散化が、学習の成功に不可欠であることを示唆した。
これらの知見により、アクション空間が容易に学習できることを明確にすることで、新しい環境におけるRLの使用を容易にしたいと思っています。
関連論文リスト
- Latent Action Priors From a Single Gait Cycle Demonstration for Online Imitation Learning [42.642008092347986]
本稿では,ロボット学習における帰納的バイアスとして,専門家による実証から学んだ潜伏行動を行動空間の先行として提案する。
単純なオートエンコーダを用いて1つのオープンループ歩行サイクルのみからこれらの動作先を学習できることが示される。
論文 参考訳(メタデータ) (2024-10-04T09:10:56Z) - Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case [20.14197375326218]
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
論文 参考訳(メタデータ) (2024-09-19T16:30:25Z) - A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free
Reinforcement Learning [86.06110576808824]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。
機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界では4分で学習できる。
論文 参考訳(メタデータ) (2022-08-16T17:37:36Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - A Survey on Reinforcement Learning Methods in Character Animation [22.3342752080749]
強化学習(Reinforcement Learning)は、エージェントがシーケンシャルな決定をするためにどのようにトレーニングできるかに焦点を当てた機械学習の分野である。
本稿では,現代のDeep Reinforcement Learning法を調査し,キャラクタアニメーションにおける応用の可能性について考察する。
論文 参考訳(メタデータ) (2022-03-07T23:39:00Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning [41.53297694894669]
本稿では,効率的な強化学習のための潜在行動空間の学習方法であるLASERを提案する。
学習したアクション空間マニホールドの可視化で観察したように、アクション空間のより良いアライメントからタスクスペースへの元のアクションスペースと比較して、サンプル効率が向上しました。
論文 参考訳(メタデータ) (2021-03-29T17:40:02Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。