論文の概要: Exploring Large Language Models for Word Games:Who is the Spy?
- arxiv url: http://arxiv.org/abs/2503.15235v1
- Date: Wed, 19 Mar 2025 14:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:47.582198
- Title: Exploring Large Language Models for Word Games:Who is the Spy?
- Title(参考訳): 単語ゲームのための大規模言語モデルの探索:スパイとは何か?
- Authors: Chentian Wei, Jiewei Chen, Jinzhu Xu,
- Abstract要約: 本研究では,大言語モデル(LLM)がワードゲームに効果的に関与できるかを考察する。
我々は,ロールワードの推測やアイデンティティの曖昧化といったタスクにおいて,LLMの優れたパフォーマンスを実現するためのChain-of-Thought(CoT)ベースのスケジューリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Word games hold significant research value for natural language processing (NLP), game theory, and related fields due to their rule-based and situational nature. This study explores how large language models (LLMs) can be effectively involved in word games and proposes a training-free framework. "Shei Shi Wo Di" or "Who is the Spy" in English, is a classic word game. Using this game as an example, we introduce a Chain-of-Thought (CoT)-based scheduling framework to enable LLMs to achieve excellent performance in tasks such as inferring role words and disguising their identities. We evaluate the framework's performance based on game success rates and the accuracy of the LLM agents' analytical results. Experimental results affirm the framework's effectiveness, demonstrating notable improvements in LLM performance across multiple datasets. This work highlights the potential of LLMs in mastering situational reasoning and social interactions within structured game environments. Our code is publicly available at https://github.com/ct-wei/Who-is-The-Spy.
- Abstract(参考訳): ワードゲームは、自然言語処理(NLP)、ゲーム理論、およびそれらの規則に基づく状況的性質から関連する分野について重要な研究価値を持っている。
本研究では,大言語モデル(LLM)がワードゲームに効果的に関与できるかを考察し,学習自由フレームワークを提案する。
シーシーウーディ(英:Shei Shi Wody)は、英語で書かれた古典的な単語ゲームである。
このゲームを例として,LLMが役割語を推論したり,そのアイデンティティを曖昧にしたりといったタスクにおいて,優れたパフォーマンスを実現するために,Chain-of-Thought(CoT)ベースのスケジューリングフレームワークを導入する。
ゲームの成功率とLLMエージェントの分析結果の精度に基づいて,フレームワークの性能を評価する。
実験の結果、フレームワークの有効性が確認され、複数のデータセットにまたがるLLM性能が顕著に改善された。
この研究は、構造化ゲーム環境における状況推論や社会的相互作用を習得する上でのLLMの可能性を強調している。
私たちのコードはhttps://github.com/ct-wei/Who-is-The-Spy.comで公開されています。
関連論文リスト
- RPGBENCH: Evaluating Large Language Models as Role-Playing Game Engines [34.002194150560086]
本稿では,大言語モデル (LLM) をテキストベースのロールプレイングゲーム (RPG) エンジンとして評価するための最初のベンチマークであるRPGBenchを紹介する。
RPGBenchは、ゲーム作成(GC)とゲームシミュレーション(GS)の2つのコアタスクから構成される。
論文 参考訳(メタデータ) (2025-02-01T23:40:24Z) - Codenames as a Benchmark for Large Language Models [2.1028463367241033]
一般的な単語ベースのボードゲームであるCodenamesを,大規模言語モデルの推論能力を評価するための適切なベンチマークとして使用しています。
我々は,GPT-4o,Gemini 1.5,Claude 3.5 Sonnet,Llama 3.1など,最先端のLLMの能力を評価する。
以上の結果から, ゲームプレイ中に異なるモデルが出現し, 特定の役割に優れることが示唆された。
論文 参考訳(メタデータ) (2024-12-16T01:59:03Z) - Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as
Conversational Agents [20.202525145391093]
近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。
制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか?
概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
論文 参考訳(メタデータ) (2023-05-22T19:56:10Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。