論文の概要: Robust Imitation Learning for Automated Game Testing
- arxiv url: http://arxiv.org/abs/2401.04572v1
- Date: Tue, 9 Jan 2024 14:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:35:55.032449
- Title: Robust Imitation Learning for Automated Game Testing
- Title(参考訳): 自動ゲームテストのためのロバスト模倣学習
- Authors: Pierluigi Vito Amadori, Timothy Bradley, Ryan Spick, Guy Moss
- Abstract要約: 本稿では,行動クローニング(BC)とエネルギーベースモデル(EBM)を組み合わせた新しい模倣学習型アーキテクチャであるEVOLUTEを提案する。
EVOLUTEは、自律エージェントのアクション空間を連続的および離散的なタスクに分割する、2ストリームアンサンブルモデルである。
本研究では,攻撃対象を連続的に特定するためにエージェントが要求されるシューティング・アンド・ドライビング・ゲームにおけるEVOLUTEの性能を評価する。
- 参考スコア(独自算出の注目度): 1.6385815610837167
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Game development is a long process that involves many stages before a product
is ready for the market. Human play testing is among the most time consuming,
as testers are required to repeatedly perform tasks in the search for errors in
the code. Therefore, automated testing is seen as a key technology for the
gaming industry, as it would dramatically improve development costs and
efficiency. Toward this end, we propose EVOLUTE, a novel imitation
learning-based architecture that combines behavioural cloning (BC) with energy
based models (EBMs). EVOLUTE is a two-stream ensemble model that splits the
action space of autonomous agents into continuous and discrete tasks. The EBM
stream handles the continuous tasks, to have a more refined and adaptive
control, while the BC stream handles discrete actions, to ease training. We
evaluate the performance of EVOLUTE in a shooting-and-driving game, where the
agent is required to navigate and continuously identify targets to attack. The
proposed model has higher generalisation capabilities than standard BC
approaches, showing a wider range of behaviours and higher performances. Also,
EVOLUTE is easier to train than a pure end-to-end EBM model, as discrete tasks
can be quite sparse in the dataset and cause model training to explore a much
wider set of possible actions while training.
- Abstract(参考訳): ゲーム開発は長いプロセスであり、製品が市場に出るまでに多くの段階が必要となる。
テスト担当者はコードのエラーを検索するために繰り返しタスクを実行する必要があるため、ヒューマンプレイテストは最も時間がかかります。
したがって、自動テストは、開発コストと効率を劇的に改善するため、ゲーム業界にとって重要な技術と見なされている。
本研究では,行動クローニング(BC)とエネルギーベースモデル(EBM)を組み合わせた新しい模倣学習型アーキテクチャであるEVOLUTEを提案する。
EVOLUTEは、自律エージェントのアクション空間を連続的および離散的なタスクに分割する、2ストリームアンサンブルモデルである。
EBMストリームは継続的なタスクを処理し、より洗練され適応的なコントロールを持ち、BCストリームは個別のアクションを処理し、トレーニングを容易にする。
本研究では,攻撃対象を連続的に特定するためにエージェントが要求されるシューティング・アンド・ドライビングゲームにおけるEVOLUTEの性能を評価する。
提案したモデルは、標準的なBCアプローチよりも高い一般化能力を持ち、幅広い振る舞いとより高いパフォーマンスを示す。
また、EVOLUTEは純粋なエンドツーエンドのEMMモデルよりもトレーニングが簡単で、データセット内では個別のタスクが極めて少ないため、トレーニング中に可能なアクションのより広範なセットをモデルトレーニングに導くことができる。
関連論文リスト
- Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot [27.410618312830497]
本稿では,GERM(Generalist Robotic Model)を提案する。
データ利用戦略を最適化するためにオフライン強化学習を利用する。
我々は、マルチモーダル入力と出力動作を処理するために、トランスフォーマーベースのVLAネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-20T07:36:43Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。
本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。
本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-10-02T12:11:44Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Continual Model-Based Reinforcement Learning with Hypernetworks [24.86684067407964]
本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。
まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。
ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2020-09-25T01:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。