論文の概要: Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games
- arxiv url: http://arxiv.org/abs/2312.00746v2
- Date: Thu, 29 Feb 2024 06:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:14:21.560878
- Title: Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games
- Title(参考訳): デジタルディテクターの解読:マルチエージェントミステリーゲームにおけるLCM動作と能力の理解
- Authors: Dekun Wu, Haochen Shi, Zhiyuan Sun, Bang Liu
- Abstract要約: 本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
- 参考スコア(独自算出の注目度): 26.07074182316433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we explore the application of Large Language Models (LLMs) in
\textit{Jubensha}, a Chinese detective role-playing game and a novel area in
Artificial Intelligence (AI) driven gaming. We introduce the first dataset
specifically for Jubensha, including character scripts and game rules, to
foster AI agent development in this complex narrative environment. Our work
also presents a unique multi-agent interaction framework using LLMs, allowing
AI agents to autonomously engage in this game. To evaluate the gaming
performance of these AI agents, we developed novel methods measuring their
mastery of case information and reasoning skills. Furthermore, we incorporated
the latest advancements in in-context learning to improve the agents'
performance in information gathering, murderer identification, and logical
reasoning. The experimental results validate the effectiveness of our proposed
methods. This work aims to offer a novel perspective on understanding LLM
capabilities and establish a new benchmark for evaluating large language
model-based agents.
- Abstract(参考訳): 本研究では,中国の探偵ロールプレイングゲームである \textit{jubensha} における大規模言語モデル(llms)の適用と,人工知能(ai)駆動ゲームにおける新たな領域について検討する。
この複雑な物語環境におけるAIエージェント開発を促進するために、キャラクタースクリプトやゲームルールを含む、Jubensha専用のデータセットを紹介した。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
さらに,情報収集,人殺し同定,論理的推論におけるエージェントのパフォーマンスを向上させるために,コンテキスト内学習の最新の進歩を取り入れた。
提案手法の有効性を実験的に検証した。
本研究の目的は,LLM能力の理解と大規模言語モデルベースエージェント評価のための新しいベンチマークを確立することである。
関連論文リスト
- Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Large Language Model based Multi-Agents: A Survey of Progress and
Challenges [46.857697157523994]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - Exploring Large Language Model based Intelligent Agents: Definitions,
Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。
定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。
我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文 参考訳(メタデータ) (2024-01-07T09:08:24Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation
in Avalon Gameplay [57.202649879872624]
Avalonのゲームプレイにシームレスに適応する新しいフレームワークを提案する。
提案するフレームワークの中核は,エージェント間の効率的な通信と対話を可能にするマルチエージェントシステムである。
本研究は,適応的かつインテリジェントなエージェントを生成する上で,我々のフレームワークの有効性を示すものである。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - An In-depth Survey of Large Language Model-based Artificial Intelligence
Agents [11.774961923192478]
LLMベースのAIエージェントと従来のAIエージェントの主な違いと特徴について検討した。
我々は、計画、記憶、ツール使用を含むAIエージェントの重要なコンポーネントについて、詳細な分析を行った。
論文 参考訳(メタデータ) (2023-09-23T11:25:45Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。