論文の概要: SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models
- arxiv url: http://arxiv.org/abs/2605.23345v1
- Date: Fri, 22 May 2026 08:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.255133
- Title: SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models
- Title(参考訳): SCOPE:FPSワールドモデルのためのプレイ可能な環境におけるクロスゲーム操作のシミュレーション
- Authors: Zizhao Tong, Hongfeng Lai, Zeqing Wang, Zhaohu Xing, Kexu Cheng, Haoran Xu, Zhao Pu, Shangwen Zhu, Ruili Feng, Jian Zhao, Yan Zhang, Hao Tang, Yeying Jin, Ling Shao,
- Abstract要約: 既存のメソッドは、グローバルにアクションを注入し、シングルタイトルでトレーニングし、密度の高いFPS入力で失敗する。
本稿では,事前学習したビデオ拡散モデルの各トランスブロックに条件付きモジュールを挿入するSCOPEを提案する。
また,フレーム対応のアクションテレメトリを備えたマルチゲームFPSデータセットであるCrossFPSについても紹介する。
- 参考スコア(独自算出の注目度): 49.15128236103093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive world models for first-person shooter (FPS) games must resolve high-frequency overlapping control signals at every frame without disrupting unaffected regions. Existing methods inject actions globally and train on single titles, failing under dense FPS inputs. We observe that FPS actions are spatially selective: discrete events such as firing or reloading affect only a localized region around the weapon (the scope), while continuous camera and movement signals govern stable surroundings. We propose SCOPE, which inserts a conditioning module into each transformer block of a pretrained video diffusion model. It reshapes features into per-pixel temporal sequences so that each position computes its action response from local visual content. This separates in-scope effects from out-of-scope generation without segmentation labels. We also introduce CrossFPS, the first multi-game FPS dataset with frame-aligned action telemetry. It comprises 69K clips from 7 titles with 10-DoF controller signals, curated to remove gameplay bias. The model learns general visual-to-action mappings rather than game-specific patterns, enabling zero-shot transfer to unseen scenes. Experiments confirm strong action responsiveness, precise scope separation, and effective cross-game generalization.
- Abstract(参考訳): ファーストパーソンシューティングゲーム(FPS)のインタラクティブワールドモデルは、影響を受けない領域を混乱させることなく、各フレームにおける高周波重なり合う制御信号を解決しなければならない。
既存のメソッドは、グローバルにアクションを注入し、シングルタイトルでトレーニングし、密度の高いFPS入力で失敗する。
射撃や再装填などの離散的な事象は、銃身周囲の局所的な領域(スコープ)にのみ影響し、連続カメラと移動信号は安定した環境を制御している。
本稿では,事前学習したビデオ拡散モデルの各トランスブロックに条件付きモジュールを挿入するSCOPEを提案する。
特徴をピクセルごとの時間シーケンスに再設定し、各位置が局所的な視覚コンテンツからアクション応答を計算する。
これは、スコープ内効果と、セグメンテーションラベルなしでのスコープ外効果を分離する。
また,フレーム対応のアクションテレメトリを備えたマルチゲームFPSデータセットであるCrossFPSについても紹介する。
7つのゲームから69Kのクリップと10-DoFのコントローラー信号があり、ゲームプレイのバイアスを取り除くためにキュレートされている。
モデルはゲーム固有のパターンではなく、一般的な視覚とアクションのマッピングを学習し、目に見えないシーンへのゼロショット転送を可能にする。
実験により、強力なアクション応答性、正確なスコープ分離、効果的なクロスゲーム一般化が確認された。
関連論文リスト
- ActionParty: Multi-Subject Action Binding in Generative Video Games [117.52562594944679]
ActionPartyは、ゲーム生成のための制御可能な多目的世界モデルである。
46の多様な環境において最大7人のプレイヤーを同時に制御できる最初のビデオワールドモデルを実証する。
論文 参考訳(メタデータ) (2026-04-02T17:59:58Z) - GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization [0.4306143768014156]
ラベル付きタックルトリミングの例を必要としないFPOCローカライゼーションのためのトレーニングフリーパイプラインを提案する。
738のタックル・プラクティス・ビデオでは、GRAZEは97.4%のクリップの有効出力を生成し、全クリップの77.5%と全クリップの82.7%で$pm$10フレームと$pm$20フレームでFPOCをローカライズする。
論文 参考訳(メタデータ) (2026-04-01T20:41:58Z) - Predicting Quality of Video Gaming Experience Using Global-Scale Telemetry Data and Federated Learning [2.3277056140190218]
フレーム・パー・秒(FPS)はゲーム体験に大きな影響を与える。
グローバルスケールのデータセット上でゲームFPSに影響を与える可能性のある要因について検討する。
ユーザプライバシを確保するためのフェデレーション学習モデルを提案する。
論文 参考訳(メタデータ) (2024-12-12T05:28:34Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。