論文の概要: GameVerse: Can Vision-Language Models Learn from Video-based Reflection?
- arxiv url: http://arxiv.org/abs/2603.06656v2
- Date: Tue, 10 Mar 2026 03:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:12.937186
- Title: GameVerse: Can Vision-Language Models Learn from Video-based Reflection?
- Title(参考訳): GameVerse: ビジョンランゲージモデルはビデオベースのリフレクションから学ぶことができるか?
- Authors: Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li,
- Abstract要約: 我々は、反射的な視覚的相互作用ループを可能にする総合的なビデオゲームベンチマークであるGameVerseを紹介する。
従来のファイア・アンド・フォーゲット・アセスメントを超えて、ビジョン・ランゲージ・モデルがどのように視覚体験を内部化し、ポリシーを改善するかを評価するために、新しいリフレクション・アンド・リトライ・パラダイムを使用している。
- 参考スコア(独自算出の注目度): 15.723982947450189
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human gameplay is a visually grounded interaction loop in which players act, reflect on failures, and watch tutorials to refine strategies. Can Vision-Language Models (VLMs) also learn from video-based reflection? We present GameVerse, a comprehensive video game benchmark that enables a reflective visual interaction loop. Moving beyond traditional fire-and-forget evaluations, it uses a novel reflect-and-retry paradigm to assess how VLMs internalize visual experience and improve policies. To facilitate systematic and scalable evaluation, we also introduce a cognitive hierarchical taxonomy spanning 15 globally popular games, dual action space for both semantic and GUI control, and milestone evaluation using advanced VLMs to quantify progress. Our experiments show that VLMs benefit from video-based reflection in varied settings, and perform best by combining failure trajectories and expert tutorials-a training-free analogue to reinforcement learning (RL) plus supervised fine-tuning (SFT).Our project page is available at https://gameverse-bench.github.io/ . Our code is available at https://github.com/THUSI-Lab/GameVerse .
- Abstract(参考訳): ヒューマンゲームプレイ(Human Gameplay)は、プレイヤーが行動し、失敗を反映し、戦略を洗練させるためにチュートリアルを見る、視覚的に接地された相互作用ループである。
VLM(Vision-Language Models)もビデオベースのリフレクションから学べるだろうか?
我々は、反射的な視覚的相互作用ループを可能にする総合的なビデオゲームベンチマークであるGameVerseを紹介する。
従来のファイア・アンド・フォーゲット評価を超えて、新しいリフレクション・アンド・リトライパラダイムを使用して、VLMが視覚的エクスペリエンスを内部化し、ポリシーを改善する方法を評価する。
体系的かつスケーラブルな評価を容易にするため,世界15のゲームにまたがる認知階層型分類,セマンティックとGUIの両制御のための2つのアクション空間,進歩を定量化するための高度なVLMを用いたマイルストーン評価も導入した。
実験の結果、VLMは様々な環境下での映像ベースのリフレクションの恩恵を受けており、障害トラジェクトリとエキスパートチュートリアルを組み合わせ、強化学習(RL)と教師付き微調整(SFT)を併用することで、最高の性能を発揮することがわかった。
私たちのプロジェクトページはhttps://gameverse-bench.github.io/で公開されています。
私たちのコードはhttps://github.com/THUSI-Lab/GameVerseで利用可能です。
関連論文リスト
- MVR: Multi-view Video Reward Shaping for Reinforcement Learning [17.20077949643041]
MVR(Multi-View Video Reward Shaping)は、複数の視点から撮影したビデオを用いて、対象タスクに関する状態の関連性をモデル化するフレームワークである。
MVRは、画像ベースの手法に固有の特定の静的ポーズに対するバイアスを軽減する状態関連関数を学習する。
タスク固有の報酬とVLMに基づくガイダンスを統合した状態依存報酬形成形式を導入する。
論文 参考訳(メタデータ) (2026-03-02T10:24:04Z) - Playpen: An Environment for Exploring Learning Through Conversational Interaction [84.0413820245725]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。
本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。
SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-11T14:49:33Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。
既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。
構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T07:29:03Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - An Empirical Study of End-to-End Video-Language Transformers with Masked
Visual Modeling [152.75131627307567]
Masked Visual Modeling (MVM) は視覚前トレーニングに有効であることが最近証明されている。
VidL学習におけるMVMの可能性について,系統的に検討した。
我々は、MVMで事前トレーニングされたVIOLETv2が、13のVidLベンチマークで顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-04T06:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。