論文の概要: AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game
- arxiv url: http://arxiv.org/abs/2407.16521v2
- Date: Wed, 24 Jul 2024 15:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 12:45:47.627998
- Title: AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game
- Title(参考訳): AMONGAGENTS:インタラクティブテキストベースのソーシャル推論ゲームにおける大規模言語モデルの評価
- Authors: Yizhou Chi, Lingjun Mao, Zineng Tang,
- Abstract要約: 本稿では,シミュレーション環境における人間行動のプロキシの作成に焦点をあてる。
我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
- 参考スコア(独自算出の注目度): 12.384945632524424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with Among Us utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgents, that mirrors the dynamics of Among Us. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.
- Abstract(参考訳): 戦略的社会的推論ゲームは、言語モデルの理解と推論のスキルを評価する上で貴重なテストベッドとなり、社会科学、人工知能、戦略ゲームに関する重要な洞察を提供する。
本稿では,シミュレーション環境における人間行動のプロキシの作成に焦点をあてる。
この研究は、PhireAgentsという名前のテキストベースのゲーム環境を紹介し、Phire Usのダイナミクスを反映している。
プレイヤーは宇宙船の乗組員として働き、船を妨害し乗組員を排除している使者を特定する。
この環境下では、シミュレートされた言語エージェントの挙動を解析する。
実験には、CrewmatesとImpostorpersonal archetypeの異なる構成を特徴とする多様なゲームシーケンスが含まれている。
我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
この研究は、不完全な情報と複雑なアクション空間を持つゴール指向ゲームにおけるLLMのさらなる探索を促進することを目的としており、これらの設定は、社会的に駆動されたシナリオにおける言語モデルのパフォーマンスを評価する貴重な機会を提供する。
関連論文リスト
- Understanding Players as if They Are Talking to the Game in a Customized Language: A Pilot Study [3.4333699338998693]
本研究は,ゲームイベントシーケンスのモデル化における言語モデル(LM)の適用について検討する。
生イベントデータをテキストシーケンスに変換し、このデータ上でLongformerモデルを事前学習する。
これらの結果から,ゲームデザインやパーソナライズにおける自己監督型LMの可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T09:59:10Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion
Behaviors in Social Deduction Games [45.55448048482881]
本稿では,説得行動のモデル化のための最初のマルチモーダルデータセットを提案する。
データセットには199の対話文とビデオ,26,647の発話レベルアノテーションの説得戦略,ゲームレベルアノテーションの推論ゲーム結果が含まれている。
論文 参考訳(メタデータ) (2022-12-16T04:52:53Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。