論文の概要: FAIRGAMER: Evaluating Biases in the Application of Large Language Models to Video Games
- arxiv url: http://arxiv.org/abs/2508.17825v1
- Date: Mon, 25 Aug 2025 09:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.710194
- Title: FAIRGAMER: Evaluating Biases in the Application of Large Language Models to Video Games
- Title(参考訳): FAIRGAMER:大規模言語モデルのビデオゲームへの応用におけるバイアス評価
- Authors: Bingkang Shi, Jen-tse Huang, Guoyi Li, Xiaodan Zhang, Zhongjiang Yao,
- Abstract要約: 本研究では,Large Language Modelsが生み出す社会的バイアスが,現実世界のゲーム環境においてゲームバランスを直接的に損なうことを示す。
ビデオゲームシナリオにおける LLM のバイアス評価ベンチマークである FairGamer について述べる。
- 参考スコア(独自算出の注目度): 9.989488318132539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging their advanced capabilities, Large Language Models (LLMs) demonstrate vast application potential in video games--from dynamic scene generation and intelligent NPC interactions to adaptive opponents--replacing or enhancing traditional game mechanics. However, LLMs' trustworthiness in this application has not been sufficiently explored. In this paper, we reveal that the models' inherent social biases can directly damage game balance in real-world gaming environments. To this end, we present FairGamer, the first bias evaluation Benchmark for LLMs in video game scenarios, featuring six tasks and a novel metrics ${D_lstd}$. It covers three key scenarios in games where LLMs' social biases are particularly likely to manifest: Serving as Non-Player Characters, Interacting as Competitive Opponents, and Generating Game Scenes. FairGamer utilizes both reality-grounded and fully fictional game content, covering a variety of video game genres. Experiments reveal: (1) Decision biases directly cause game balance degradation, with Grok-3 (average ${D_lstd}$ score=0.431) exhibiting the most severe degradation; (2) LLMs demonstrate isomorphic social/cultural biases toward both real and virtual world content, suggesting their biases nature may stem from inherent model characteristics. These findings expose critical reliability gaps in LLMs' gaming applications. Our code and data are available at anonymous GitHub https://github.com/Anonymous999-xxx/FairGamer .
- Abstract(参考訳): 高度な能力を活用して、LLM(Large Language Models)は、動的シーン生成やインテリジェントなNPCインタラクションから、適応的な対戦者への、従来のゲームメカニクスの置き換えや強化に至るまで、ビデオゲームにおける大きな応用可能性を示す。
しかし、この応用におけるLLMの信頼性は十分に調査されていない。
本稿では,実際のゲーム環境において,モデル固有の社会的バイアスがゲームバランスに直接影響することを明らかにする。
この目的のために,ゲームシナリオにおけるLLMのバイアス評価ベンチマークであるFairGamerを紹介し,6つのタスクと新しいメトリクス{D_lstd}$を特徴とする。
LLMの社会的偏見が特に現れやすいゲームでは、3つの主要なシナリオをカバーしている。
FairGamerは現実のグラウンドと完全にフィクションのゲームコンテンツの両方を利用しており、様々なビデオゲームのジャンルをカバーしている。
1)決定バイアスはゲームバランスの劣化を直接引き起こし、Grok-3(平均${D_lstd}$ score=0.431)が最も深刻な劣化を示す。
これらの結果は、LLMのゲームアプリケーションにおいて、重大な信頼性のギャップを顕在化している。
私たちのコードとデータは匿名のGitHub https://github.com/Anonymous999-xxx/FairGamerで公開されています。
関連論文リスト
- VideoGameBench: Can Vision-Language Models complete popular video games? [8.5302862604852]
ビデオゲームは、人間が自然に帰納的バイアスを生かして学習し、習得するために直感的に作られている。
1990年代にVLMが直接リアルタイムに対話する人気ゲーム10種からなるベンチマークであるVideoGameBenchを紹介する。
その結果,フロンティア・ビジョン言語モデルは,ゲーム開始以降の進行に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-23T17:43:27Z) - lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。
我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文 参考訳(メタデータ) (2025-05-21T06:02:55Z) - ZeroSumEval: Scaling LLM Evaluation with Inter-Model Competition [14.753916893216129]
ZeroSumEvalは、ゼロサムゲームを利用して大規模言語モデル(LLM)を評価する新しい競合ベースの評価プロトコルである。
ZeroSumEvalには、セキュリティ上の課題(PyJail)、古典的なゲーム(Chess, Liar's Dice, Poker)、知識テスト(MathQuiz)、説得的課題(Gandalf, Debate)など、さまざまなゲームが含まれている。
論文 参考訳(メタデータ) (2025-04-17T01:23:50Z) - Can Large Language Models Capture Video Game Engagement? [1.3873323883842132]
我々は、ビデオの連続的な影響アノテーションを注釈化し、うまく予測する一般的な大規模言語モデルの能力を包括的に評価する。
我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
論文 参考訳(メタデータ) (2025-02-05T17:14:47Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。