論文の概要: Multicultural Spyfall: Assessing LLMs through Dynamic Multilingual Social Deduction Game
- arxiv url: http://arxiv.org/abs/2601.09017v1
- Date: Tue, 13 Jan 2026 22:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.186235
- Title: Multicultural Spyfall: Assessing LLMs through Dynamic Multilingual Social Deduction Game
- Title(参考訳): 多文化スパイフォール:動的多言語社会推論ゲームによるLLMの評価
- Authors: Haryo Akbarianto Wibowo, Alaa Elsetohy, Qinrong Cui, Alham Fikri Aji,
- Abstract要約: 本研究では,ソーシャル推論ゲームSpyfallを通じて,多言語・多文化機能のためのベンチマークフレームワークを提案する。
その結果,ゲームベースのランキングはアリーナと密接に一致していることがわかった。
このゲームベースのアプローチは、従来のNLPベンチマークに代わる、スケーラブルで、リークに耐性があり、文化的に曖昧な代替手段を提供する。
- 参考スコア(独自算出の注目度): 16.371555886428983
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has necessitated more robust evaluation methods that go beyond static benchmarks, which are increasingly prone to data saturation and leakage. In this paper, we propose a dynamic benchmarking framework for evaluating multilingual and multicultural capabilities through the social deduction game Spyfall. In our setup, models must engage in strategic dialogue to either identify a secret agent or avoid detection, utilizing culturally relevant locations or local foods. Our results show that our game-based rankings align closely with the Chatbot Arena. However, we find a significant performance gap in non-English contexts: models are generally less proficient when handling locally specific entities and often struggle with rule-following or strategic integrity in non-English languages. We demonstrate that this game-based approach provides a scalable, leakage-resistant, and culturally nuanced alternative to traditional NLP benchmarks. The game history can be accessed here https://huggingface.co/datasets/haryoaw/cultural-spyfall.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、静的なベンチマークを超えた、より堅牢な評価手法を必要としている。
本稿では,ソーシャルデダクションゲームSpyfallを通じて,多言語・多文化の能力を評価するための動的ベンチマークフレームワークを提案する。
我々の設定では、モデルは秘密のエージェントを特定するか、検出を避けるために戦略的対話を行い、文化的に関連のある場所や地元の食品を利用する必要がある。
その結果,ゲームベースのランキングはChatbot Arenaと密接に一致していることがわかった。
しかし、非英語の文脈では顕著なパフォーマンスのギャップがある: モデルは通常、局所的な特定のエンティティを扱う際には熟達しておらず、非英語の言語ではルールフォローや戦略的整合性に悩まされることが多い。
このゲームベースのアプローチは、従来のNLPベンチマークに代わる、スケーラブルで、リークに耐性があり、文化的に曖昧な代替手段を提供する。
ゲームの歴史は、https://huggingface.co/datasets/haryoaw/ cultural-spyfall.comで見ることができる。
関連論文リスト
- PragWorld: A Benchmark Evaluating LLMs' Local World Model under Minimal Linguistic Alterations and Conversational Dynamics [9.915303686933436]
我々は,言語モデル (LM) の内的世界モデルを符号化し,更新する能力を評価する。
本研究では,会話の言語的変化による実体の追跡など,LMが重要な詳細を記憶するのに苦労していることを示す。
本稿では,有用あるいは有害なトランスフォーマー層を識別する,二重パースペクティブ解釈可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T06:17:17Z) - Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:33:30Z) - GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文 参考訳(メタデータ) (2025-08-11T22:17:07Z) - Can LLMs effectively provide game-theoretic-based scenarios for cybersecurity? [51.96049148869987]
大規模言語モデル(LLM)は、コンピュータシステムのセキュリティに新しいツールと課題を提供する。
従来のゲーム理論フレームワークが,LLM駆動型アクターやボットの動作を効果的に捉えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-08-04T08:57:14Z) - Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent [18.67432557362308]
TTM(Test-Time-Matching)は、テスト時間スケーリングとコンテキストエンジニアリングによる、トレーニング不要なロールプレイングフレームワークである。
我々のフレームワークは、これらの機能を制御されたロールプレイングに利用する、構造化された3段階生成パイプラインを含んでいる。
高忠実なロールプレイングのパフォーマンスを実現し、多様な言語スタイルのシームレスな組み合わせや、個性や記憶のバリエーションも実現している。
論文 参考訳(メタデータ) (2025-07-22T17:47:44Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。