論文の概要: Simulator-Free Visual Domain Randomization via Video Games
- arxiv url: http://arxiv.org/abs/2402.01335v2
- Date: Thu, 30 May 2024 21:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 20:12:03.967876
- Title: Simulator-Free Visual Domain Randomization via Video Games
- Title(参考訳): ビデオゲームによるシミュレータフリービジュアルドメインランダム化
- Authors: Chintan Trivedi, Nemanja Rašajski, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis,
- Abstract要約: ドメインランダム化(Domain randomization)は、視覚的に異なる領域にまたがる視覚モデルの伝達可能性を改善する効果的な手法である。
本稿では,ドメインランダム化のためのビデオ理解フレームワークであるBehAVEを紹介する。
BehAVEの下では、ビデオゲームの本質的なリッチな視覚的多様性がランダム化の源として機能する。
- 参考スコア(独自算出の注目度): 2.591142786813713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain randomization is an effective computer vision technique for improving transferability of vision models across visually distinct domains exhibiting similar content. Existing approaches, however, rely extensively on tweaking complex and specialized simulation engines that are difficult to construct, subsequently affecting their feasibility and scalability. This paper introduces BehAVE, a video understanding framework that uniquely leverages the plethora of existing commercial video games for domain randomization, without requiring access to their simulation engines. Under BehAVE (1) the inherent rich visual diversity of video games acts as the source of randomization and (2) player behavior -- represented semantically via textual descriptions of actions -- guides the *alignment* of videos with similar content. We test BehAVE on 25 games of the first-person shooter (FPS) genre across various video and text foundation models and we report its robustness for domain randomization. BehAVE successfully aligns player behavioral patterns and is able to zero-shot transfer them to multiple unseen FPS games when trained on just one FPS game. In a more challenging setting, BehAVE manages to improve the zero-shot transferability of foundation models to unseen FPS games (up to 22%) even when trained on a game of a different genre (Minecraft). Code and dataset can be found at https://github.com/nrasajski/BehAVE.
- Abstract(参考訳): ドメインランダム化(Domain randomization)は、視覚的に異なる領域にまたがる視覚モデルの伝達性を改善する効果的なコンピュータビジョン技術である。
しかし、既存のアプローチは、構築が困難な複雑で特殊なシミュレーションエンジンの微調整に大きく依存し、その実現可能性とスケーラビリティに影響を及ぼす。
本稿では,シミュレーションエンジンへのアクセスを必要とせず,ドメインランダム化のために既存の商用ビデオゲームの多元性を独自に活用するビデオ理解フレームワークであるBehAVEを紹介する。
BehAVE (1)の下では、ビデオゲームの本質的なリッチな視覚的多様性がランダム化の源として機能し、(2)プレイヤーの行動は、動作のテキスト記述を通して意味的に表現される -- が、類似したコンテンツを持つビデオの*アライメント*を導く。
我々は、様々なビデオおよびテキスト基盤モデルにわたるFPSジャンルの25のゲームでBehAVEをテストし、ドメインランダム化に対する頑健さを報告する。
BehAVEはプレイヤーの行動パターンの調整に成功し、1つのFPSゲームでトレーニングされた時に、それらを複数の見えないFPSゲームにゼロショットで転送することができる。
より困難な設定では、BehAVEは、異なるジャンル(Minecraft)のゲームでトレーニングされた場合でも、ファンデーションモデルのゼロショット転送性を改善して、FPSゲーム(最大22%)を目にすることができないようにしている。
コードとデータセットはhttps://github.com/nrasajski/BehAVEで見ることができる。
関連論文リスト
- Learning Interactive Real-World Simulators [107.12907352474005]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Towards General Game Representations: Decomposing Games Pixels into
Content and Style [2.570570340104555]
ゲームのピクセル表現を学習することは、複数の下流タスクにまたがる人工知能の恩恵を受けることができる。
本稿では,コンピュータビジョンエンコーダの汎用化について検討する。
我々は、ゲームジャンルに基づく事前学習されたビジョントランスフォーマーエンコーダと分解技術を用いて、個別のコンテンツとスタイルの埋め込みを得る。
論文 参考訳(メタデータ) (2023-07-20T17:53:04Z) - Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear [65.33183123368804]
Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
論文 参考訳(メタデータ) (2023-06-01T17:24:01Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Vision-Guided Quadrupedal Locomotion in the Wild with Multi-Modal Delay
Randomization [9.014518402531875]
我々は、予め定義されたコントローラや参照動作を使わずに、物理シミュレータにおけるエンドツーエンド制御のためのRLポリシーを訓練する。
ロボットが高速でスムーズに動き、障害物を回避し、ベースラインよりも大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2021-09-29T16:48:05Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Benchmarking End-to-End Behavioural Cloning on Video Games [5.863352129133669]
我々は,2010年以降の6ゲームを含む12のビデオゲームにおける行動クローンの一般適用性について検討した。
以上の結果から,これらのエージェントは生演奏では人間と一致しないが,基本力学やルールを学習できることがわかった。
また、データの質や、人間からのデータの記録が、人間の反射によって、状態-作用ミスマッチの対象になっていることを実証する。
論文 参考訳(メタデータ) (2020-04-02T13:31:51Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。