論文の概要: AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game
- arxiv url: http://arxiv.org/abs/2407.16521v1
- Date: Tue, 23 Jul 2024 14:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:55:42.963924
- Title: AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game
- Title(参考訳): AMONGAGENTS:インタラクティブテキストベースのソーシャル推論ゲームにおける大規模言語モデルの評価
- Authors: Yizhou Chi, Lingjun Mao, Zineng Tang,
- Abstract要約: 本論文は、シミュレーション環境における人間の行動のプロキシの作成に焦点をあて、シミュレーション環境における人間の行動を研究するためのツールとして、textitAmong Usを用いた。
この環境下では、シミュレートされた言語エージェントの挙動を解析する。
我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
- 参考スコア(独自算出の注目度): 12.384945632524424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Strategic social deduction games serve as valuable testbeds for evaluating the understanding and inference skills of language models, offering crucial insights into social science, artificial intelligence, and strategic gaming. This paper focuses on creating proxies of human behavior in simulated environments, with \textit{Among Us} utilized as a tool for studying simulated human behavior. The study introduces a text-based game environment, named AmongAgent, that mirrors the dynamics of \textit{Among Us}. Players act as crew members aboard a spaceship, tasked with identifying impostors who are sabotaging the ship and eliminating the crew. Within this environment, the behavior of simulated language agents is analyzed. The experiments involve diverse game sequences featuring different configurations of Crewmates and Impostor personality archetypes. Our work demonstrates that state-of-the-art large language models (LLMs) can effectively grasp the game rules and make decisions based on the current context. This work aims to promote further exploration of LLMs in goal-oriented games with incomplete information and complex action spaces, as these settings offer valuable opportunities to assess language model performance in socially driven scenarios.
- Abstract(参考訳): 戦略的社会的推論ゲームは、言語モデルの理解と推論のスキルを評価する上で貴重なテストベッドとなり、社会科学、人工知能、戦略ゲームに関する重要な洞察を提供する。
本稿では、シミュレーション環境における人間の行動のプロキシの作成に焦点をあて、シミュレーションされた人間の行動を研究するためのツールとして、‘textit{Among Us} を用いている。
この研究は、テキストベースのゲーム環境であるPhireAgentを紹介し、これは \textit{Among Us} のダイナミクスを反映している。
プレイヤーは宇宙船の乗組員として働き、船を妨害し乗組員を排除している使者を特定する。
この環境下では、シミュレートされた言語エージェントの挙動を解析する。
実験には、CrewmatesとImpostorpersonal archetypeの異なる構成を特徴とする多様なゲームシーケンスが含まれている。
我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
この研究は、不完全な情報と複雑なアクション空間を持つゴール指向ゲームにおけるLLMのさらなる探索を促進することを目的としており、これらの設定は、社会的に駆動されたシナリオにおける言語モデルのパフォーマンスを評価する貴重な機会を提供する。
関連論文リスト
- AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior [44.82972192477596]
我々はAgentGroupChatを紹介した。これは集団行動を形成する上での言語の役割を解明するシミュレーションである。
我々は,グループ力学における複雑な言語使用を模倣するシミュレーション能力を示すために,AgentGroupChatに基づく4つの物語シナリオを設定した。
その結果,幅広い情報交換環境,多彩な特徴を持つ文字,高い言語的理解,戦略的適応性など,様々な要因から創発的行動が生み出すことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-20T09:21:32Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation
in Avalon Gameplay [57.202649879872624]
Avalonのゲームプレイにシームレスに適応する新しいフレームワークを提案する。
提案するフレームワークの中核は,エージェント間の効率的な通信と対話を可能にするマルチエージェントシステムである。
本研究は,適応的かつインテリジェントなエージェントを生成する上で,我々のフレームワークの有効性を示すものである。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - Character-LLM: A Trainable Agent for Role-Playing [67.35139167985008]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするエージェントとして用いられる。
本稿では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
論文 参考訳(メタデータ) (2023-10-16T07:58:56Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion
Behaviors in Social Deduction Games [45.55448048482881]
本稿では,説得行動のモデル化のための最初のマルチモーダルデータセットを提案する。
データセットには199の対話文とビデオ,26,647の発話レベルアノテーションの説得戦略,ゲームレベルアノテーションの推論ゲーム結果が含まれている。
論文 参考訳(メタデータ) (2022-12-16T04:52:53Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。