論文の概要: Reason to Play: Behavioral and Brain Alignment Between Frontier LRMs and Human Game Learners
- arxiv url: http://arxiv.org/abs/2605.08019v1
- Date: Fri, 08 May 2026 17:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.227749
- Title: Reason to Play: Behavioral and Brain Alignment Between Frontier LRMs and Human Game Learners
- Title(参考訳): 遊びへの理由:フロンティアのRTMと人間のゲーム学習者との行動的・ブレインアライメント
- Authors: Botos Csaba, Sreejan Kumar, Austin Tudor David Andrews, Laurence Hunt, Chris Summerfield, Joshua B. Tenenbaum, Rui Ponte Costa, Marcelo G. Mattar, Momchil Tomov,
- Abstract要約: 人間は、新しい環境に遭遇する際に抽象的な知識を急速に学習する。
現代のAIシステムは、同様の方法で学び、計画できるのか?
本稿では,fMRI同時記録による複雑な人間のゲームプレイのデータセットを用いて,この問題を考察する。
- 参考スコア(独自算出の注目度): 35.67021004974861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans rapidly learn abstract knowledge when encountering novel environments and flexibly deploy this knowledge to guide efficient and intelligent action. Can modern AI systems learn and plan in a similar way? We study this question using a dataset of complex human gameplay with concurrent fMRI recordings, in which participants learn novel video games that require rule discovery, hypothesis revision, and multi-step planning. We jointly evaluate models by their ability to play the games, match human learning behavior, and predict brain activity during the same task, comparing a suite of frontier Large Reasoning Models (LRMs) against model-free and model-based deep reinforcement learning agents and a Bayesian theory-based agent. We find that frontier LRMs most closely match human behavioral patterns during game discovery and predict brain activity an order of magnitude better than both reinforcement learning alternatives across cortical and subcortical regions, with effects robust to permutation controls. Through targeted manipulations, we further show that brain alignment reflects the model's in-context representation of the game state rather than its downstream planning or reasoning. Our results establish LRMs as compelling computational accounts of human learning and decision making in complex, naturalistic environments. Project page with interactive replays: https://botcs.github.io/reason-to-play/
- Abstract(参考訳): 人間は、新しい環境に遭遇する際に抽象的な知識を素早く学習し、この知識を柔軟に展開し、効率的でインテリジェントな行動を導く。
現代のAIシステムは、同様の方法で学び、計画できるのか?
本研究では, ルール発見, 仮説修正, マルチステップ計画を必要とする新しいビデオゲームを参加者が学習する, fMRI 同時記録による複雑な人間のゲームプレイのデータセットを用いて, この課題を考察する。
我々は,ゲームプレイ,人間の学習行動の一致,同じ作業中の脳活動の予測を,モデルフリーおよびモデルベース深部強化学習エージェントとベイズ理論に基づくエージェントとを比較して共同で評価する。
ゲーム発見時の人間の行動パターンと最も密に一致し,脳活動を予測するフロンティアLEMは,皮質と皮質の双方にわたる強化学習の選択肢よりも桁違いに優れていることがわかった。
対象とする操作を通じて、脳のアライメントは、下流の計画や推論よりもむしろ、モデルのゲーム状態のコンテキスト内表現を反映していることを示す。
この結果は、複雑な自然主義環境下での人間の学習と意思決定の説得力のある計算方法としてLRMを確立した。
インタラクティブなリプレイを備えたプロジェクトページ: https://botcs.github.io/reason-to-play/
関連論文リスト
- People use fast, flat goal-directed simulation to reason about novel problems [68.55490343866545]
私たちは、人々が初めてゲームをする方法に体系的かつ適応的に合理的であることを示します。
直感型ゲーマー」と呼ばれる計算認知モデルを用いて,これらの能力を説明する。
私たちの研究は、人々が新しい問題に遭遇するとき、どのように素早く評価し、行動し、提案するかに関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-10-13T15:12:08Z) - Cognitive Models as Simulators: The Case of Moral Decision-Making [9.024707986238392]
本研究では,AIシステムと対話し,人間の代わりに認知モデルからフィードバックを収集することを目的としたシミュレータとして,$textitcognitive Modelのアイデアを裏付ける。
ここでは、ウルティマトゥムゲーム(UG)の認知モデルと相互作用することで、強化学習エージェントに公正さについて学ばせることにより、道徳的意思決定の文脈でこの考え方を活用する。
我々の研究は、人間のシミュレーターとして認知モデルを使用することがAIシステムのトレーニングに効果的なアプローチであり、AIに貢献するための計算認知科学の重要な方法を提供することを示唆している。
論文 参考訳(メタデータ) (2022-10-08T23:14:14Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Deep Latent Competition: Learning to Race Using Visual Control Policies
in Latent Space [63.57289340402389]
Deep Latent Competition (DLC) は、想像力の自己プレイを通じて、競合する視覚制御ポリシーを学ぶ強化学習アルゴリズムである。
想像すると、セルフプレイは現実世界でコストのかかるサンプル生成を削減し、潜在表現は観測次元で計画を優雅にスケールできる。
論文 参考訳(メタデータ) (2021-02-19T09:00:29Z) - Teach me to play, gamer! Imitative learning in computer games via
linguistic description of complex phenomena and decision tree [55.41644538483948]
本稿では,複雑な現象の言語記述に基づく模倣による新しい機械学習モデルを提案する。
この手法は,ゲーム開発における知的エージェントの動作を設計し,実装するための優れた代替手段となる。
論文 参考訳(メタデータ) (2021-01-06T21:14:10Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。