Fugu-MT 論文翻訳(概要): Do Vision Language Models Understand Human Engagement in Games?

論文の概要: Do Vision Language Models Understand Human Engagement in Games?

arxiv url: http://arxiv.org/abs/2603.18480v1
Date: Thu, 19 Mar 2026 04:32:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.955359
Title: Do Vision Language Models Understand Human Engagement in Games?
Title（参考訳）: 視覚言語モデルはゲームにおける人間のエンゲージメントを理解するか?
Authors: Ziyi Wang, Qizan Guo, Rishitosh Singh, Xiyang Hu,
Abstract要約: ゲームデザインやプレイ体験研究において,ゲームプレイビデオから人間のエンゲージメントを推定することが重要である。我々は,9対1のシューティングゲームにおいて,視覚言語モデル(VLM)を6つのプロンプト戦略で評価した。その結果、ゼロショットのVLM予測は一般的に弱く、ゲームごとの多数派ベースラインを上回りません。
参考スコア（独自算出の注目度）: 5.398980203118197
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Inferring human engagement from gameplay video is important for game design and player-experience research, yet it remains unclear whether vision--language models (VLMs) can infer such latent psychological states from visual cues alone. Using the GameVibe Few-Shot dataset across nine first-person shooter games, we evaluate three VLMs under six prompting strategies, including zero-shot prediction, theory-guided prompts grounded in Flow, GameFlow, Self-Determination Theory, and MDA, and retrieval-augmented prompting. We consider both pointwise engagement prediction and pairwise prediction of engagement change between consecutive windows. Results show that zero-shot VLM predictions are generally weak and often fail to outperform simple per-game majority-class baselines. Memory- or retrieval-augmented prompting improves pointwise prediction in some settings, whereas pairwise prediction remains consistently difficult across strategies. Theory-guided prompting alone does not reliably help and can instead reinforce surface-level shortcuts. These findings suggest a perception--understanding gap in current VLMs: although they can recognize visible gameplay cues, they still struggle to robustly infer human engagement across games.
Abstract（参考訳）: ゲームプレイ映像から人間のエンゲージメントを推定することはゲームデザインやプレイヤー体験研究において重要であるが、視覚言語モデル(VLM)が視覚的手がかりだけでそのような潜伏した心理状態を推測できるかどうかは不明である。 9つのシューティングゲームを対象としたGameVibe Few-Shotデータセットを用いて,ゼロショット予測,ゲームフロー,自己決定理論,MDAに基づく理論誘導プロンプト,検索強化プロンプトを含む6つのプロンプト戦略に基づく3つのVLMを評価する。我々は,連続窓間の係り受け変化のポイントワイズ予測とペアワイズ予測の両方を考慮する。その結果、ゼロショットのVLM予測は一般的に弱く、ゲームごとの多数派ベースラインを上回りません。メモリまたは検索拡張プロンプトは、いくつかの設定においてポイントワイズ予測を改善するが、ペアワイズ予測は戦略全体で一貫して困難である。理論誘導プロンプトだけでは確実な助けにはならず、代わりに表面レベルのショートカットを強化することができる。これらの発見は、現在のVLMにおける認識の欠如を示唆している:彼らは目に見えるゲームプレイの手がかりを認識することができるが、それでも、ゲーム全体での人間のエンゲージメントを強く推し進めるのに苦労している。

関連論文リスト

Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文参考訳（メタデータ） (2025-10-13T13:33:30Z)
Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文参考訳（メタデータ） (2025-08-27T08:01:03Z)
VideoGameBench: Can Vision-Language Models complete popular video games? [8.5302862604852]
ビデオゲームは、人間が自然に帰納的バイアスを生かして学習し、習得するために直感的に作られている。 1990年代にVLMが直接リアルタイムに対話する人気ゲーム10種からなるベンチマークであるVideoGameBenchを紹介する。その結果,フロンティア・ビジョン言語モデルは,ゲーム開始以降の進行に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-05-23T17:43:27Z)
lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文参考訳（メタデータ） (2025-05-21T06:02:55Z)
Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文参考訳（メタデータ） (2025-05-20T03:47:44Z)
CognitionNet: A Collaborative Neural Network for Play Style Discovery in Online Skill Gaming Platform [6.665636945186558]
本稿では,2段階のディープニューラルネットワークであるCognitionNetを提案する。第1段階は、潜在空間におけるクラスタ表現としてのゲーム動作のマイニングに焦点を当てている。 2つ目は、これらのマイクロパターンを集約して、プレイスタイルを見つけます。
論文参考訳（メタデータ） (2025-05-01T05:51:19Z)
Predicting Outcomes in Video Games with Long Short Term Memory Networks [0.39723189359605243]
本研究は,ゲームトーナメントにおける観客エンゲージメントを高めるために,リアルタイムな勝利予測手法を導入することを目的とする。概念実証として,従来の2人プレイのアーケードゲームSuper Street Fighter II Turboにおけるモデルの性能を評価する。
論文参考訳（メタデータ） (2024-02-24T22:36:23Z)
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文参考訳（メタデータ） (2022-01-07T19:00:21Z)
Predicting Events in MOBA Games: Dataset, Attribution, and Evaluation [37.16502752193698]
本研究では,MOBAゲーム『Honor of Kings』のゲーム内機能を含む大規模データセットを収集,リリースする。次に,2つのグラデーションに基づくアトリビューション手法を用いて,入力特徴に対する予測をアトリビュートすることにより,4種類の重要事象を解釈可能な方法で予測することを提案する。
論文参考訳（メタデータ） (2020-12-17T07:28:35Z)
Interpretable Real-Time Win Prediction for Honor of Kings, a Popular Mobile MOBA Esport [51.20042288437171]
本研究では,2段階空間時間ネットワーク(TSSTN)を提案する。実世界のライブストリーミングシナリオにおける実験結果と応用により,提案したTSSTNモデルは予測精度と解釈可能性の両方において有効であることが示された。
論文参考訳（メタデータ） (2020-08-14T12:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。