論文の概要: Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
- arxiv url: http://arxiv.org/abs/2601.04575v1
- Date: Thu, 08 Jan 2026 04:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.032181
- Title: Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
- Title(参考訳): スケーリング行動のクローン化による因果推論:リアルタイムビデオゲームのオープンモデル
- Authors: Yuguang Yue, Irakli Salia, Samuel Hunt, Chris Green, Wenzhe Shi, Jonathan J Hunt,
- Abstract要約: 私たちは、すべてのデータ(高品質な人間のゲームプレイ8300時間以上)、トレーニングと推論コード、オープンライセンス下で事前訓練されたチェックポイントをリリースします。
我々の最良のモデルは、人間のプレイと競合するレベルにおいて、様々な3Dビデオゲームをプレイできることを示します。
まず,ある種の因果推論において,トレーニングデータの量とネットワーク深度の両方を増大させることで,より因果ポリシーを学習できる,単純な玩具問題を示す。
- 参考スコア(独自算出の注目度): 2.5663091969883993
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.
- Abstract(参考訳): ビヘイビアクローンは、モデルとデータサイズの両方のスケーリングが、多くの関心のあるタスクにとって強力な出発点となることを証明しているため、人気が回復している。
本研究では,コンシューマGPU上での推論をリアルタイムに行うために設計されたゲームプレイ基盤モデルをトレーニングするためのオープンレシピを提案する。
私たちは、すべてのデータ(高品質な人間のゲームプレイ8300時間以上)、トレーニングと推論コード、オープンライセンス下で事前訓練されたチェックポイントをリリースします。
我々の最良のモデルは、人間のプレイと競合するレベルにおいて、様々な3Dビデオゲームをプレイできることを示します。
このレシピを用いて、モデルの性能と因果推論がモデルやデータスケールとどのように異なるかを理解するために、行動クローニングのスケーリング法則を体系的に検証する。
まず,ある種の因果推論において,トレーニングデータの量とネットワーク深度の両方を増大させることで,より因果ポリシーを学習できる,単純な玩具問題を示す。
次に、最大12億のパラメータのスケールモデルにおいて、因果関係がパラメータの数(と深さ)とトレーニングステップによってどのように変化するかを体系的に研究し、おもちゃの問題で観察したものと同じようなスケーリング結果を得る。
関連論文リスト
- Learning to play: A Multimodal Agent for 3D Game-Play [2.5663091969883993]
まず,多種多様な3Dファーストパーソンゲームから収集した人間のゲームプレイのデータセットについて述べる。
得られたモデルが様々な3Dゲームをプレイし、テキスト入力に応答できることを示す。
論文 参考訳(メタデータ) (2025-10-19T09:45:15Z) - Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。
我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。
下流タスクの精度を維持しつつ、推論遅延を1.8倍改善するMorph-1Bモデルをリリースする。
論文 参考訳(メタデータ) (2025-01-30T03:16:44Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - A Tale of Tails: Model Collapse as a Change of Scaling Laws [11.6055501181235]
私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか?
スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。
我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
論文 参考訳(メタデータ) (2024-02-10T21:06:34Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Generation of Games for Opponent Model Differentiation [2.164100958962259]
これまでの結果から,人間の振る舞いをモデル化することで,アルゴリズムの性能が大幅に向上することが示唆された。
本研究では、悪意ある行為を行う可能性を高める人格タイプを特定する心理学者によって収集されたデータを用いる。
私たちはそのパラメータと心理的特徴を結びつける新しいモデルを作成しました。
論文 参考訳(メタデータ) (2023-11-28T13:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。