論文の概要: Play to Generalize: Learning to Reason Through Game Play
- arxiv url: http://arxiv.org/abs/2506.08011v1
- Date: Mon, 09 Jun 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.117604
- Title: Play to Generalize: Learning to Reason Through Game Play
- Title(参考訳): Play to Generalize: ゲームプレイを通じて推論を学ぶ
- Authors: Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei,
- Abstract要約: そこで我々は,MLLMがアーケード的なゲームによってマルチモーダル推論のドメイン外一般化を開発する,新たな学習パラダイムであるVisual Game Learningを提案する。
ルールベースのゲームは、制御可能でスケーラブルなプレテキストタスクとして機能する。
- 参考スコア(独自算出の注目度): 11.778612579151067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains challenging. Motivated by cognitive science literature suggesting that gameplay promotes transferable cognitive skills, we propose a novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs develop out-of-domain generalization of multimodal reasoning through playing arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM via reinforcement learning (RL) on simple arcade-like games, e.g. Snake, significantly enhances its downstream performance on multimodal math benchmarks like MathVista, and on multi-discipline questions like MMMU, without seeing any worked solutions, equations, or diagrams during RL, suggesting the capture of transferable reasoning skills. Remarkably, our model outperforms specialist models tuned on multimodal reasoning data in multimodal reasoning benchmarks, while preserving the base model's performance on general visual benchmarks, a challenge where specialist models often fall short. Our findings suggest a new post-training paradigm: synthetic, rule-based games can serve as controllable and scalable pre-text tasks that unlock generalizable multimodal reasoning abilities in MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における一般化可能な推論機能の開発は依然として困難である。
ゲームプレイが伝達可能な認知スキルを促進することを示唆する認知科学文献に触発された我々は,MLLMがアーケード的なゲームを通じてマルチモーダル推論のドメイン外一般化を開発する,新しい学習パラダイムであるVisual Game Learning(ViGaL)を提案する。
具体的には、簡単なアーケード的なゲーム(例えばSnake)で7BパラメータMLLMを強化学習(RL)することで、MathVistaのようなマルチモーダルな数学ベンチマークやMMMUのようなマルチディシデントな質問において、RL中に動く解や方程式、図形を見ることなく、ダウンストリームのパフォーマンスを著しく向上することを示し、転送可能な推論スキルの獲得を示唆している。
注目すべきことに、我々のモデルは、マルチモーダル推論ベンチマークにおいて、マルチモーダル推論データに基づいて調整されたスペシャリストモデルよりも優れており、また、一般的なビジュアルベンチマークでは、ベースモデルのパフォーマンスを保っている。
ルールベースのゲームは、MLLMの一般化可能なマルチモーダル推論能力を解放する制御可能でスケーラブルなプレテキストタスクとして機能する。
関連論文リスト
- Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - EscapeCraft: A 3D Room Escape Environment for Benchmarking Complex Multimodal Reasoning Ability [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。
MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。
大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。
性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文 参考訳(メタデータ) (2025-03-13T04:48:43Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games [2.2648566044372416]
本稿では,アタリゲームにおける低レベルポリシーとして,マルチモーダル LLM の創発的能力をテストするための新しいベンチマークを提案する。
本研究では,従来のRLエージェント,ヒトプレイヤー,ランダムエージェントに対するマルチモーダルLLMの性能評価を行った。
以上の結果から,これらのマルチモーダル LLM はゼロショットの低レベルポリシーをまだ実現できていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-28T17:08:56Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。