論文の概要: Behavioural Cloning in VizDoom
- arxiv url: http://arxiv.org/abs/2401.03993v1
- Date: Mon, 8 Jan 2024 16:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 15:32:22.628147
- Title: Behavioural Cloning in VizDoom
- Title(参考訳): VizDoomにおける行動クローン
- Authors: Ryan Spick, Timothy Bradley, Ayush Raina, Pierluigi Vito Amadori, Guy
Moss
- Abstract要約: 本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes methods for training autonomous agents to play the game
"Doom 2" through Imitation Learning (IL) using only pixel data as input. We
also explore how Reinforcement Learning (RL) compares to IL for humanness by
comparing camera movement and trajectory data. Through behavioural cloning, we
examine the ability of individual models to learn varying behavioural traits.
We attempt to mimic the behaviour of real players with different play styles,
and find we can train agents that behave aggressively, passively, or simply
more human-like than traditional AIs. We propose these methods of introducing
more depth and human-like behaviour to agents in video games. The trained IL
agents perform on par with the average players in our dataset, whilst
outperforming the worst players. While performance was not as strong as common
RL approaches, it provides much stronger human-like behavioural traits to the
agent.
- Abstract(参考訳): 本稿では,画素データのみを入力としてImitation Learning (IL) を用いて,自律エージェントがゲーム「Doom 2」をプレイする訓練方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
行動クローニングを通して、個々のモデルが様々な行動特性を学習する能力を検討する。
私たちは、プレイスタイルの異なるリアルプレイヤーの振る舞いを模倣しようと試み、従来のAIよりも攻撃的、受動的、あるいは単に人間らしく振る舞うエージェントを訓練することができる。
ビデオゲームにおけるエージェントにより深みと人間的な振る舞いを導入する手法を提案する。
トレーニングされたILエージェントは、データセット内の平均的なプレイヤーと同等に動作します。
パフォーマンスは一般的なRLアプローチほど強力ではなかったが、エージェントに強い人間のような行動特性を提供する。
関連論文リスト
- Toward Human-AI Alignment in Large-Scale Multi-Player Games [24.784173202415687]
我々はXboxのBleeding Edge(100K+ゲーム)から広範囲にわたる人間のゲームプレイデータを解析する。
人間のプレイヤーは、戦闘飛行や探索飛行行動において多様性を示す一方で、AIプレイヤーは均一性に向かう傾向にある。
これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-05T22:55:33Z) - Enhancing Human Experience in Human-Agent Collaboration: A
Human-Centered Modeling Approach Based on Positive Human Gain [18.968232976619912]
協調型AIエージェントのための「人間中心型」モデリング手法を提案する。
エージェントは、エージェントの本来の能力を維持しながら、人間がこれらの目標を達成する度合いを高めることを学ぶべきである。
マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲーム「Honor of Kings」におけるRLHGエージェントの評価を行った。
論文 参考訳(メタデータ) (2024-01-28T05:05:57Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Generative Personas That Behave and Experience Like Humans [3.611888922173257]
生成AIエージェントは、ルール、報酬、または人間のデモンストレーションとして表される特定の演奏行動の模倣を試みる。
我々は、行動手続き的ペルソナの概念をプレイヤー体験に適応させるよう拡張し、プレイヤーが人間のように行動し、経験できる生成エージェントを調べる。
その結果, 生成したエージェントは, 模倣を意図した人物のプレイスタイルや経験的反応を呈することが示唆された。
論文 参考訳(メタデータ) (2022-08-26T12:04:53Z) - Explaining Deep Reinforcement Learning Agents In The Atari Domain
through a Surrogate Model [78.69367679848632]
深部RLエージェントの説明を導出するための軽量で効果的な手法について述べる。
提案手法は,RLエージェントの画素ベース入力から解釈可能な知覚的入力表現への変換に依存する。
次に、ターゲットの深いRLエージェントの挙動を再現するために、それ自身解釈可能な代理モデルを訓練する。
論文 参考訳(メタデータ) (2021-10-07T05:01:44Z) - Predicting Game Engagement and Difficulty Using AI Players [3.0501851690100277]
本稿では,人間のプレイヤの行動と経験を予測するための自動プレイテスト手法を提案する。
これまで,Deep Reinforcement Learningゲームプレイングエージェントがゲーム難易度とプレイヤーエンゲージメントの両方を予測することが実証されてきた。
モンテカルロ木探索(MCTS)によるDRL向上によるこのアプローチの改善
論文 参考訳(メタデータ) (2021-07-26T09:31:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。