論文の概要: Long-Horizon Dialogue Understanding for Role Identification in the Game
of Avalon with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.05720v1
- Date: Thu, 9 Nov 2023 20:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:49:03.418415
- Title: Long-Horizon Dialogue Understanding for Role Identification in the Game
of Avalon with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたアバロンゲームにおけるロール識別のためのロングホリゾン対話理解
- Authors: Simon Stepputtis, Joseph Campbell, Yaqi Xie, Zhengyang Qi, Wenxin
Sharon Zhang, Ruiyi Wang, Sanketh Rangreji, Michael Lewis, Katia Sycara
- Abstract要約: Avalon: The Resistanceは、プレイヤーがチームの目的を達成するためにお互いの隠れたアイデンティティを判断しなければならない社会的推論ゲームである。
オンラインテストベッドと20個の慎重に収集・ラベル付けされたゲームを含むデータセットを導入する。
そこで本研究では,LLMが6人のプレイヤー間での知覚的長期会話を利用して,各プレイヤーの目標とモチベーションを決定する能力について論じる。
- 参考スコア(独自算出の注目度): 6.176709034158014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deception and persuasion play a critical role in long-horizon dialogues
between multiple parties, especially when the interests, goals, and motivations
of the participants are not aligned. Such complex tasks pose challenges for
current Large Language Models (LLM) as deception and persuasion can easily
mislead them, especially in long-horizon multi-party dialogues. To this end, we
explore the game of Avalon: The Resistance, a social deduction game in which
players must determine each other's hidden identities to complete their team's
objective. We introduce an online testbed and a dataset containing 20 carefully
collected and labeled games among human players that exhibit long-horizon
deception in a cooperative-competitive setting. We discuss the capabilities of
LLMs to utilize deceptive long-horizon conversations between six human players
to determine each player's goal and motivation. Particularly, we discuss the
multimodal integration of the chat between the players and the game's state
that grounds the conversation, providing further insights into the true player
identities. We find that even current state-of-the-art LLMs do not reach human
performance, making our dataset a compelling benchmark to investigate the
decision-making and language-processing capabilities of LLMs. Our dataset and
online testbed can be found at our project website:
https://sstepput.github.io/Avalon-NLU/
- Abstract(参考訳): 認知と説得は、特に参加者の興味、目標、モチベーションが一致していない場合に、複数の当事者間の長期の対話において重要な役割を果たす。
このような複雑なタスクは、偽装や説得といった現在の大規模言語モデル(llm)にとって問題となる。
この目的のために、プレイヤーはチームの目的を達成するためにお互いの隠れたアイデンティティを判断しなければならない社会的推論ゲームであるAvalon: The Resistanceを探索する。
オンラインテストベッドと20種類のラベル付きゲームを含むデータセットを,協調競争環境において長時間のデセプションを呈する人間選手間で紹介する。
そこで本研究では,LLMが6人のプレイヤー間での知覚的長期会話を利用して,各プレイヤーの目標とモチベーションを決定する能力について論じる。
特に,会話を基盤としたゲーム状態とプレイヤー間のマルチモーダルなチャットの統合について論じ,真のプレイヤーのアイデンティティについてさらなる知見を提供する。
現状のLLMでさえ人間のパフォーマンスには達していないことが分かり、我々のデータセットはLLMの意思決定能力と言語処理能力を調べるための魅力的なベンチマークとなる。
私たちのデータセットとオンラインテストベッドは、プロジェクトのWebサイト(https://sstepput.github.io/Avalon-NLU/)で確認できます。
関連論文リスト
- AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game [12.384945632524424]
本稿では,シミュレーション環境における人間行動のプロキシの作成に焦点をあてる。
我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-23T14:34:38Z) - Collaborative Quest Completion with LLM-driven Non-Player Characters in Minecraft [14.877848057734463]
我々はMinecraft内のミニゲームを設計し、プレイヤーは2台のGPT4駆動のNPCを使ってクエストを完了する。
ゲームログと記録の分析において,NPCや人間プレイヤーから協調行動のパターンがいくつか出現していることが判明した。
この予備的な研究と分析は、ゲームにおける協調的な役割のために、これらの急速に改善された生成AIモデルをうまく活用する方法を、将来のゲーム開発者に与えるだろうと考えている。
論文 参考訳(メタデータ) (2024-07-03T19:11:21Z) - A Dialogue Game for Eliciting Balanced Collaboration [64.61707514432533]
本稿では、プレイヤーがゴール状態自体を交渉しなければならない2Dオブジェクト配置ゲームを提案する。
我々は,人間プレイヤーが様々な役割を担っていることを実証的に示し,バランスの取れた協調によってタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2024-06-12T13:35:10Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Response Generation in Longitudinal Dialogues: Which Knowledge
Representation Helps? [3.0874448550989673]
縦対話(LD)は人間と機械の対話システムにおいて最も難しいタイプの対話である。
LDにおける応答生成の課題について検討する。
LDのデータセットを用いて2つのPLM、GePpeTtoとiT5を微調整する。
論文 参考訳(メタデータ) (2023-05-25T10:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。