論文の概要: Benchmarking End-to-End Behavioural Cloning on Video Games
- arxiv url: http://arxiv.org/abs/2004.00981v2
- Date: Mon, 18 May 2020 13:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 12:38:09.257961
- Title: Benchmarking End-to-End Behavioural Cloning on Video Games
- Title(参考訳): ビデオゲームにおけるエンド・ツー・エンド行動クローニングのベンチマーク
- Authors: Anssi Kanervisto, Joonas Pussinen, Ville Hautam\"aki
- Abstract要約: 我々は,2010年以降の6ゲームを含む12のビデオゲームにおける行動クローンの一般適用性について検討した。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
- 参考スコア(独自算出の注目度): 5.863352129133669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioural cloning, where a computer is taught to perform a task based on
demonstrations, has been successfully applied to various video games and
robotics tasks, with and without reinforcement learning. This also includes
end-to-end approaches, where a computer plays a video game like humans do: by
looking at the image displayed on the screen, and sending keystrokes to the
game. As a general approach to playing video games, this has many inviting
properties: no need for specialized modifications to the game, no lengthy
training sessions and the ability to re-use the same tools across different
games. However, related work includes game-specific engineering to achieve the
results. We take a step towards a general approach and study the general
applicability of behavioural cloning on twelve video games, including six
modern video games (published after 2010), by using human demonstrations as
training data. Our results show that these agents cannot match humans in raw
performance but do learn basic dynamics and rules. We also demonstrate how the
quality of the data matters, and how recording data from humans is subject to a
state-action mismatch, due to human reflexes.
- Abstract(参考訳): コンピュータがデモに基づいてタスクを実行するように指示される行動的クローンは、強化学習なしで、様々なビデオゲームやロボット工学のタスクにうまく適用されている。
また、コンピュータが人間のようにビデオゲームをプレイするエンド・ツー・エンドのアプローチも含まれている:画面に表示された画像を見て、ゲームにキーストロークを送る。
ビデオゲームの一般的なアプローチとしては、ゲームに特別な修正を加える必要がなく、トレーニングセッションが長くないこと、異なるゲーム間で同じツールを再利用できることなど、多くの誘惑的な特性がある。
しかし、関連する研究には結果を得るためにゲーム固有のエンジニアリングが含まれる。
そこで本研究では,2010年以降の6ゲームを含む12のゲームにおいて,人間の実演をトレーニングデータとして利用することにより,行動クローンの一般適用性について検討する。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
関連論文リスト
- HumanPlus: Humanoid Shadowing and Imitation from Humans [82.47551890765202]
ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを導入する。
まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。
次に、自己中心型視覚を用いてスキルポリシーを訓練し、ヒューマノイドが自律的に異なるタスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-06-15T00:41:34Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文 参考訳(メタデータ) (2024-01-08T16:15:43Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online
Videos [16.858980871368175]
我々は、半自明な模倣学習を通じて、インターネット規模の事前学習パラダイムをシーケンシャルな決定領域に拡張する。
この動作先行はゼロショット機能を有しておらず、模倣学習と強化学習の両方で微調整可能であることを示す。
多くのタスクにおいて、私たちのモデルは人間レベルのパフォーマンスを示しており、ダイアモンドツールを作れるコンピュータエージェントを最初に報告しています。
論文 参考訳(メタデータ) (2022-06-23T16:01:11Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Teach me to play, gamer! Imitative learning in computer games via
linguistic description of complex phenomena and decision tree [55.41644538483948]
本稿では,複雑な現象の言語記述に基づく模倣による新しい機械学習モデルを提案する。
この手法は,ゲーム開発における知的エージェントの動作を設計し,実装するための優れた代替手段となる。
論文 参考訳(メタデータ) (2021-01-06T21:14:10Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Testing match-3 video games with Deep Reinforcement Learning [0.0]
そこで本研究では,Match-3 ゲームにおいて,Deep Reinforcement Learning を用いてテストプロセスを自動化する可能性について検討する。
我々は,レッドビットゲームズが開発したMatch-3ゲームであるJelly Juiceゲーム上で,この種のネットワークをテストする。
論文 参考訳(メタデータ) (2020-06-30T12:41:35Z) - Learning to Play by Imitating Humans [8.209859328381269]
遠隔操作型プレイデータ上での自己監督制御により,多様なスキルの獲得が可能であることを示す。
比較的少量の人間の遊びに対して行動的クローン化ポリシーを訓練することにより、我々は大量のクローン化プレイデータを自律的に生成する。
この拡張データセットでトレーニングされた汎用目標条件ポリシーは、本来の人的データでトレーニングされた政策よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-06-11T23:28:54Z) - Navigating the Landscape of Multiplayer Games [20.483315340460127]
大規模ゲームの応答グラフにネットワーク測度を適用することで,ゲームのランドスケープを創出できることを示す。
本研究は, 標準ゲームから複雑な経験ゲームまで, 訓練されたエージェント同士のパフォーマンスを計測する領域における知見について述べる。
論文 参考訳(メタデータ) (2020-05-04T16:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。