論文の概要: Towards Human-Like RL: Taming Non-Naturalistic Behavior in Deep RL via
Adaptive Behavioral Costs in 3D Games
- arxiv url: http://arxiv.org/abs/2309.15484v1
- Date: Wed, 27 Sep 2023 08:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:45:08.755910
- Title: Towards Human-Like RL: Taming Non-Naturalistic Behavior in Deep RL via
Adaptive Behavioral Costs in 3D Games
- Title(参考訳): 人間ライクなRLを目指して:3Dゲームにおける適応的行動コストによる深部RLの非自然的行動のモデリング
- Authors: Kuo-Hao Ho, Ping-Chun Hsieh, Chiu-Chou Lin, You-Ren Luo, Feng-Jian
Wang, I-Chen Wu
- Abstract要約: ABC-RL(Adaptive Behavioral Costs in Reinforcement Learning)と呼ばれる新しい手法を提案する。
ABC-RLは、動的に調整された重み付き強化学習におけるコスト信号として、行動制限を増大させる。
ABC-RLは同じ性能を示しながら、揺動や回転の事例を著しく減らした。
- 参考スコア(独自算出の注目度): 14.31087095939213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new approach called Adaptive Behavioral Costs in
Reinforcement Learning (ABC-RL) for training a human-like agent with
competitive strength. While deep reinforcement learning agents have recently
achieved superhuman performance in various video games, some of these
unconstrained agents may exhibit actions, such as shaking and spinning, that
are not typically observed in human behavior, resulting in peculiar gameplay
experiences. To behave like humans and retain similar performance, ABC-RL
augments behavioral limitations as cost signals in reinforcement learning with
dynamically adjusted weights. Unlike traditional constrained policy
optimization, we propose a new formulation that minimizes the behavioral costs
subject to a constraint of the value function. By leveraging the augmented
Lagrangian, our approach is an approximation of the Lagrangian adjustment,
which handles the trade-off between the performance and the human-like
behavior. Through experiments conducted on 3D games in DMLab-30 and Unity
ML-Agents Toolkit, we demonstrate that ABC-RL achieves the same performance
level while significantly reducing instances of shaking and spinning. These
findings underscore the effectiveness of our proposed approach in promoting
more natural and human-like behavior during gameplay.
- Abstract(参考訳): 本稿では,強化学習における適応行動コスト(Adaptive Behavioral Costs in Reinforcement Learning,ABC-RL)と呼ばれる新たな手法を提案する。
深層強化学習エージェントは、近年、様々なビデオゲームで超人的パフォーマンスを達成したが、これらの非拘束エージェントの中には、人間の行動には通常観察されない揺動や回転のような行動を示すものもあり、特異なゲームプレイ体験をもたらす。
人間のように振る舞うために、ABC-RLは動的に調整された重みを持つ強化学習におけるコスト信号として行動制限を増強する。
従来の制約付き政策最適化とは異なり,価値関数の制約に基づく行動コストを最小化する新しい定式化を提案する。
拡張されたラグランジアンを活用することで、このアプローチは、パフォーマンスと人間のような振る舞いのトレードオフを扱うラグランジアン調整の近似である。
DMLab-30とUnity ML-Agents Toolkitの3Dゲームで行った実験により,ABC-RLは同じ性能を実現し,揺動や回転の回数を大幅に削減した。
これらの結果は,ゲームプレイ中により自然的,人間的行動を促進するための提案手法の有効性を裏付けるものである。
関連論文リスト
- REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文 参考訳(メタデータ) (2024-01-08T16:15:43Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Soft Actor-Critic with Inhibitory Networks for Faster Retraining [0.24466725954625884]
事前訓練されたモデルの再利用は、深い強化学習において重要である。
目的や制約が以前学んだスキルと矛盾している場合、新しいスキルをどうやって獲得するかは不明だ。
本稿では, 阻止ネットワークを用いて, 独立かつ適応的な状態値評価を可能にする手法を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:10:34Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Data-Driven Reinforcement Learning for Virtual Character Animation
Control [0.0]
社会的行動は、世界との物理的相互作用の欠如のために、報酬関数を設計することが困難です。
本稿では,この課題に対処する新しいデータ駆動型ディープRLアプローチであるRLAnimateを提案する。
エージェント,環境,状態,行動といった要素の概念的役割を解明し,エージェントの数学的構造を定式化する。
提案手法を用いて学習したエージェントは,反復的なRL学習プロセスを用いて,多動作を表現するための汎用的アニメーション力学を学習する。
論文 参考訳(メタデータ) (2021-04-13T17:05:27Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。