論文の概要: Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games
- arxiv url: http://arxiv.org/abs/2312.00746v2
- Date: Thu, 29 Feb 2024 06:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:14:21.560878
- Title: Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games
- Title(参考訳): デジタルディテクターの解読:マルチエージェントミステリーゲームにおけるLCM動作と能力の理解
- Authors: Dekun Wu, Haochen Shi, Zhiyuan Sun, Bang Liu
- Abstract要約: 本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
- 参考スコア(独自算出の注目度): 26.07074182316433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we explore the application of Large Language Models (LLMs) in
\textit{Jubensha}, a Chinese detective role-playing game and a novel area in
Artificial Intelligence (AI) driven gaming. We introduce the first dataset
specifically for Jubensha, including character scripts and game rules, to
foster AI agent development in this complex narrative environment. Our work
also presents a unique multi-agent interaction framework using LLMs, allowing
AI agents to autonomously engage in this game. To evaluate the gaming
performance of these AI agents, we developed novel methods measuring their
mastery of case information and reasoning skills. Furthermore, we incorporated
the latest advancements in in-context learning to improve the agents'
performance in information gathering, murderer identification, and logical
reasoning. The experimental results validate the effectiveness of our proposed
methods. This work aims to offer a novel perspective on understanding LLM
capabilities and establish a new benchmark for evaluating large language
model-based agents.
- Abstract(参考訳): 本研究では,中国の探偵ロールプレイングゲームである \textit{jubensha} における大規模言語モデル(llms)の適用と,人工知能(ai)駆動ゲームにおける新たな領域について検討する。
この複雑な物語環境におけるAIエージェント開発を促進するために、キャラクタースクリプトやゲームルールを含む、Jubensha専用のデータセットを紹介した。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
さらに,情報収集,人殺し同定,論理的推論におけるエージェントのパフォーマンスを向上させるために,コンテキスト内学習の最新の進歩を取り入れた。
提案手法の有効性を実験的に検証した。
本研究の目的は,LLM能力の理解と大規模言語モデルベースエージェント評価のための新しいベンチマークを確立することである。
関連論文リスト
- Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。
RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。
彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文 参考訳(メタデータ) (2024-04-28T15:56:41Z) - A Survey on Large Language Model-Based Game Agents [9.892954815419452]
ゲームエージェントの開発は、人工知能(AGI)に進む上で重要な役割を担っている
本稿では, LLMをベースとしたゲームエージェントについて, 総合的な視点から概観する。
論文 参考訳(メタデータ) (2024-04-02T15:34:18Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。
本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。
その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - An In-depth Survey of Large Language Model-based Artificial Intelligence
Agents [11.774961923192478]
LLMベースのAIエージェントと従来のAIエージェントの主な違いと特徴について検討した。
我々は、計画、記憶、ツール使用を含むAIエージェントの重要なコンポーネントについて、詳細な分析を行った。
論文 参考訳(メタデータ) (2023-09-23T11:25:45Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。