論文の概要: AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
- arxiv url: http://arxiv.org/abs/2602.17594v1
- Date: Thu, 19 Feb 2026 18:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.295088
- Title: AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
- Title(参考訳): AI Gamestore: ヒューマンゲームによるマシン汎用インテリジェンスのスケーラブルでオープンな評価
- Authors: Lance Ying, Ryan Truong, Prafull Sharma, Kaiya Ivy Zhao, Nathan Cloos, Kelsey R. Allen, Thomas L. Griffiths, Katherine M. Collins, José Hernández-Orallo, Phillip Isola, Samuel J. Gershman, Joshua B. Tenenbaum,
- Abstract要約: 我々はAI GameStoreを紹介した。これはスケーラブルでオープンなプラットフォームで、新しい代表的人間のゲームを合成する。
Apple App StoreとSteamのトップチャートに基づいて100のゲームを生成し、短いプレイで7つのフロンティアビジョン言語モデル(VLM)を評価します。
最高のモデルは、ほとんどのゲームで人間の平均スコアの10%未満を達成し、特に世界モデルの学習、記憶、計画に挑戦するゲームに苦戦した。
- 参考スコア(独自算出の注目度): 63.29377274531968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play \textbf{all conceivable human games}, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.
- Abstract(参考訳): 人間の汎用知能の幅広い範囲に対して、機械知能を厳格に評価することは、この急激な技術進歩の時代において、ますます重要で困難なものになりつつある。
従来のAIベンチマークは通常、限られた範囲の人間の活動において、限られた能力しか評価しない。
多くは静的で、開発者が明示的にあるいは暗黙的に最適化するので、すぐに飽和する。
我々は、AIシステムにおいて、人間のような汎用知性を評価するより有望な方法として、経験、時間、その他のリソースのレベルが同じ人間プレイヤーと比較して、どのようにして、どのようにして、どのように、どのようにして遊び、学習するかを学ぶという、一般的なゲームプレイの特に強力な形態によって、人間のような汎用知性を評価することが提案される。
我々は、「人間のゲーム」を、人間が人間のためにデザインしたゲームと定義し、人々が想像し、楽しむことのできる全てのゲームのこの空間の評価的適合性、すなわち「人間のゲームのマルチバース」を論じる。
このビジョンへの第一歩として、AI GameStoreを紹介します。このスケーラブルでオープンなプラットフォームは、人間のデジタルゲームプラットフォームから、人気のあるデジタルゲームプラットフォームから、標準化されたコンテナ化されたゲーム環境を自動でソーシングし、新しい代表的ゲームを合成します。
概念実証として,Apple App StoreとSteamのトップチャートに基づいて100のゲームを生成し,短いプレイで7つのフロンティアビジョン言語モデル(VLM)を評価した。
最高のモデルは、ほとんどのゲームで人間の平均スコアの10倍未満を達成し、特に世界モデルの学習、記憶、計画に挑戦するゲームに苦戦した。
我々は、AI GameStoreを構築するための次のステップを、マシン内の人間のような汎用知性への進歩を計測し、推進する実践的な方法として締めくくります。
関連論文リスト
- People use fast, flat goal-directed simulation to reason about novel problems [68.55490343866545]
私たちは、人々が初めてゲームをする方法に体系的かつ適応的に合理的であることを示します。
直感型ゲーマー」と呼ばれる計算認知モデルを用いて,これらの能力を説明する。
私たちの研究は、人々が新しい問題に遭遇するとき、どのように素早く評価し、行動し、提案するかに関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-10-13T15:12:08Z) - The Many Challenges of Human-Like Agents in Virtual Game Environments [1.1586742546971471]
この記事では、ゲームで人間のようなAIを実装する上で最も重要な課題について調査する。
独自のディープリカレント畳み込みニューラルネットワークを用いた機械学習手法を提案する。
特定のゲームのために人間のようなAIを作るのが難しいほど、AI駆動のプレイヤーと人間を区別する手法を開発するのが簡単になる、という仮説を立てる。
論文 参考訳(メタデータ) (2025-05-26T14:00:39Z) - Human-like Bots for Tactical Shooters Using Compute-Efficient Sensors [13.743654443419384]
本稿では、複雑な商用標準の2v2戦術シューティングゲームで遊ぶために、模倣学習を用いてニューラルネットワークを訓練するための新しい手法を提案する。
提案手法は, 空間情報を効率よく取得する小型のレイキャストセンサを用いて, 画期的, 画期的, 画期的, 画期的な知覚アーキテクチャを利用する。
人間の評価テストは、AIエージェントが人間のようなゲームプレイ体験を提供しながら、計算制約下で効率的に操作できることを確認します。
論文 参考訳(メタデータ) (2024-12-30T12:06:37Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Aligning Superhuman AI with Human Behavior: Chess as a Model System [5.236087378443016]
我々は、人間のチェスゲームで訓練されたAlpha-Zeroのカスタマイズ版であるMaiaを開発し、既存のエンジンよりもはるかに高い精度で人間の動きを予測する。
人間が次の動きで大きな間違いを犯すかどうかを予測する2つのタスクに対して、我々は、競争ベースラインを大幅に上回るディープニューラルネットワークを開発する。
論文 参考訳(メタデータ) (2020-06-02T18:12:52Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。