論文の概要: BehAVE: Behaviour Alignment of Video Game Encodings
- arxiv url: http://arxiv.org/abs/2402.01335v3
- Date: Fri, 01 Nov 2024 16:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:14.639280
- Title: BehAVE: Behaviour Alignment of Video Game Encodings
- Title(参考訳): BehAVE:ビデオゲームエンコーディングの振る舞いアライメント
- Authors: Nemanja Rašajski, Chintan Trivedi, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis,
- Abstract要約: BehAVEはドメインランダム化のためのビデオ理解フレームワークである。
ランダム化のためにビデオゲームの視覚的多様性をタップし、プレイヤーアクションのテキスト記述を使って、同様のコンテンツとビデオの調整を行う。
各種ビデオおよびテキスト基礎モデルを用いて,25個のFPSゲーム間でBehAVEを評価した。
- 参考スコア(独自算出の注目度): 2.591142786813713
- License:
- Abstract: Domain randomisation enhances the transferability of vision models across visually distinct domains with similar content. However, current methods heavily depend on intricate simulation engines, hampering feasibility and scalability. This paper introduces BehAVE, a video understanding framework that utilises existing commercial video games for domain randomisation without accessing their simulation engines. BehAVE taps into the visual diversity of video games for randomisation and uses textual descriptions of player actions to align videos with similar content. We evaluate BehAVE across 25 first-person shooter (FPS) games using various video and text foundation models, demonstrating its robustness in domain randomisation. BehAVE effectively aligns player behavioural patterns and achieves zero-shot transfer to multiple unseen FPS games when trained on just one game. In a more challenging scenario, BehAVE enhances the zero-shot transferability of foundation models to unseen FPS games, even when trained on a game of a different genre, with improvements of up to 22%. BehAVE is available online at https://github.com/nrasajski/BehAVE.
- Abstract(参考訳): ドメインランダム化は、類似したコンテンツを持つ視覚的に異なるドメイン間の視覚モデルの転送可能性を高める。
しかし、現在の手法は複雑なシミュレーションエンジンに大きく依存しており、実現可能性やスケーラビリティを妨げている。
本稿では、既存の商用ビデオゲームをシミュレーションエンジンにアクセスせずにドメインランダム化に活用するビデオ理解フレームワークであるBehAVEを紹介する。
BehAVEは、ランダム化のためにビデオゲームの視覚的多様性をタップし、プレイヤーアクションのテキスト記述を使用して、ビデオに類似したコンテンツをアライメントする。
各種ビデオおよびテキスト基盤モデルを用いて,25対のファーストパーソンシューティングゲーム(FPS)におけるBehAVEの評価を行い,ドメインランダム化の頑健さを実証した。
BehAVEは、プレイヤーの行動パターンを効果的に調整し、1つのゲームでトレーニングされた時に、複数の見えないFPSゲームへのゼロショット転送を達成する。
より困難なシナリオでは、BehAVEはファウンデーションモデルのゼロショット転送可能性を強化し、異なるジャンルのゲームでトレーニングされた場合でもFPSゲームを見ることができ、最大22%の改善がある。
BehAVEはhttps://github.com/nrasajski/BehAVE.comで公開されている。
関連論文リスト
- GameGen-X: Interactive Open-world Game Video Generation [10.001128258269675]
我々は,オープンワールドゲームビデオの生成とインタラクティブ制御に特化して設計された,最初の拡散トランスフォーマーモデルであるGameGen-Xを紹介する。
革新的なキャラクター、動的環境、複雑なアクション、多様なイベントなど、一連のゲームエンジン機能をシミュレートする。
インタラクティブな制御性を提供し、現在のクリップに基づいたコンテンツの予測と将来的な変更を可能にし、ゲームプレイシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-01T17:59:17Z) - Unbounded: A Generative Infinite Game of Character Life Simulation [68.37260000219479]
生成モデルを用いて,有限なハードコードシステムの境界を超越したゲームである生成無限ゲームの概念を導入する。
我々は、生成AIの最近の進歩を活用して、生成モデルに完全にカプセル化されたキャラクターライフシミュレーションゲームUnboundedを作成する。
論文 参考訳(メタデータ) (2024-10-24T17:59:31Z) - Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear [65.33183123368804]
Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
論文 参考訳(メタデータ) (2023-06-01T17:24:01Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Benchmarking End-to-End Behavioural Cloning on Video Games [5.863352129133669]
我々は,2010年以降の6ゲームを含む12のビデオゲームにおける行動クローンの一般適用性について検討した。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
論文 参考訳(メタデータ) (2020-04-02T13:31:51Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。