論文の概要: Simulator-Free Visual Domain Randomization via Video Games
- arxiv url: http://arxiv.org/abs/2402.01335v2
- Date: Thu, 30 May 2024 21:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 20:12:03.967876
- Title: Simulator-Free Visual Domain Randomization via Video Games
- Title(参考訳): ビデオゲームによるシミュレータフリービジュアルドメインランダム化
- Authors: Chintan Trivedi, Nemanja Rašajski, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis,
- Abstract要約: ドメインランダム化(Domain randomization)は、視覚的に異なる領域にまたがる視覚モデルの伝達可能性を改善する効果的な手法である。
本稿では,ドメインランダム化のためのビデオ理解フレームワークであるBehAVEを紹介する。
BehAVEの下では、ビデオゲームの本質的なリッチな視覚的多様性がランダム化の源として機能する。
- 参考スコア(独自算出の注目度): 2.591142786813713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain randomization is an effective computer vision technique for improving transferability of vision models across visually distinct domains exhibiting similar content. Existing approaches, however, rely extensively on tweaking complex and specialized simulation engines that are difficult to construct, subsequently affecting their feasibility and scalability. This paper introduces BehAVE, a video understanding framework that uniquely leverages the plethora of existing commercial video games for domain randomization, without requiring access to their simulation engines. Under BehAVE (1) the inherent rich visual diversity of video games acts as the source of randomization and (2) player behavior -- represented semantically via textual descriptions of actions -- guides the *alignment* of videos with similar content. We test BehAVE on 25 games of the first-person shooter (FPS) genre across various video and text foundation models and we report its robustness for domain randomization. BehAVE successfully aligns player behavioral patterns and is able to zero-shot transfer them to multiple unseen FPS games when trained on just one FPS game. In a more challenging setting, BehAVE manages to improve the zero-shot transferability of foundation models to unseen FPS games (up to 22%) even when trained on a game of a different genre (Minecraft). Code and dataset can be found at https://github.com/nrasajski/BehAVE.
- Abstract(参考訳): ドメインランダム化(Domain randomization)は、視覚的に異なる領域にまたがる視覚モデルの伝達性を改善する効果的なコンピュータビジョン技術である。
しかし、既存のアプローチは、構築が困難な複雑で特殊なシミュレーションエンジンの微調整に大きく依存し、その実現可能性とスケーラビリティに影響を及ぼす。
本稿では,シミュレーションエンジンへのアクセスを必要とせず,ドメインランダム化のために既存の商用ビデオゲームの多元性を独自に活用するビデオ理解フレームワークであるBehAVEを紹介する。
BehAVE (1)の下では、ビデオゲームの本質的なリッチな視覚的多様性がランダム化の源として機能し、(2)プレイヤーの行動は、動作のテキスト記述を通して意味的に表現される -- が、類似したコンテンツを持つビデオの*アライメント*を導く。
我々は、様々なビデオおよびテキスト基盤モデルにわたるFPSジャンルの25のゲームでBehAVEをテストし、ドメインランダム化に対する頑健さを報告する。
BehAVEはプレイヤーの行動パターンの調整に成功し、1つのFPSゲームでトレーニングされた時に、それらを複数の見えないFPSゲームにゼロショットで転送することができる。
より困難な設定では、BehAVEは、異なるジャンル(Minecraft)のゲームでトレーニングされた場合でも、ファンデーションモデルのゼロショット転送性を改善して、FPSゲーム(最大22%)を目にすることができないようにしている。
コードとデータセットはhttps://github.com/nrasajski/BehAVEで見ることができる。
関連論文リスト
- GameGen-X: Interactive Open-world Game Video Generation [10.001128258269675]
我々は,オープンワールドゲームビデオの生成とインタラクティブ制御に特化して設計された,最初の拡散トランスフォーマーモデルであるGameGen-Xを紹介する。
革新的なキャラクター、動的環境、複雑なアクション、多様なイベントなど、一連のゲームエンジン機能をシミュレートする。
インタラクティブな制御性を提供し、現在のクリップに基づいたコンテンツの予測と将来的な変更を可能にし、ゲームプレイシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-01T17:59:17Z) - Unbounded: A Generative Infinite Game of Character Life Simulation [68.37260000219479]
生成モデルを用いて,有限なハードコードシステムの境界を超越したゲームである生成無限ゲームの概念を導入する。
我々は、生成AIの最近の進歩を活用して、生成モデルに完全にカプセル化されたキャラクターライフシミュレーションゲームUnboundedを作成する。
論文 参考訳(メタデータ) (2024-10-24T17:59:31Z) - Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear [65.33183123368804]
Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
論文 参考訳(メタデータ) (2023-06-01T17:24:01Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Benchmarking End-to-End Behavioural Cloning on Video Games [5.863352129133669]
我々は,2010年以降の6ゲームを含む12のビデオゲームにおける行動クローンの一般適用性について検討した。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
論文 参考訳(メタデータ) (2020-04-02T13:31:51Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。