Fugu-MT 論文翻訳(概要): Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models

論文の概要: Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models

arxiv url: http://arxiv.org/abs/2307.12573v1
Date: Mon, 24 Jul 2023 07:40:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 15:10:13.888894
Title: Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models
Title（参考訳）: Tachikuma: 大規模言語モデルによるマルチファクターと新しいオブジェクトとの複雑な相互作用の確立
Authors: Yuanzhi Liang, Linchao Zhu, Yi Yang
Abstract要約: 我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
参考スコア（独自算出の注目度）: 67.20964015591262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in natural language and Large Language Models (LLMs) have enabled AI agents to simulate human-like interactions within virtual worlds. However, these interactions still face limitations in complexity and flexibility, particularly in scenarios involving multiple characters and novel objects. Pre-defining all interactable objects in the agent's world model presents challenges, and conveying implicit intentions to multiple characters through complex interactions remains difficult. To address these issues, we propose integrating virtual Game Masters (GMs) into the agent's world model, drawing inspiration from Tabletop Role-Playing Games (TRPGs). GMs play a crucial role in overseeing information, estimating players' intentions, providing environment descriptions, and offering feedback, compensating for current world model deficiencies. To facilitate future explorations for complex interactions, we introduce a benchmark named Tachikuma, comprising a Multiple character and novel Object based interaction Estimation (MOE) task and a supporting dataset. MOE challenges models to understand characters' intentions and accurately determine their actions within intricate contexts involving multi-character and novel object interactions. Besides, the dataset captures log data from real-time communications during gameplay, providing diverse, grounded, and complex interactions for further explorations. Finally, we present a simple prompting baseline and evaluate its performance, demonstrating its effectiveness in enhancing interaction understanding. We hope that our dataset and task will inspire further research in complex interactions with natural language, fostering the development of more advanced AI agents.
Abstract（参考訳）: 自然言語とLarge Language Models(LLM)の最近の進歩により、AIエージェントは仮想世界での人間のようなインタラクションをシミュレートできるようになった。しかし、これらの相互作用は、特に複数の文字と新しいオブジェクトを含むシナリオにおいて、複雑さと柔軟性の制限に直面している。エージェントの世界モデルで全ての相互作用可能なオブジェクトを事前に定義することは困難であり、複雑な相互作用を通じて複数の文字に暗黙の意図を伝えることは依然として困難である。そこで本稿では,仮想ゲームマスタ(gms)をエージェントの世界モデルに統合し,テーブルトップロールプレイングゲーム(trpgs)からインスピレーションを得た。 GMは情報を監視し、プレイヤーの意図を推定し、環境の説明を提供し、フィードバックを提供し、現在の世界モデルの欠陥を補うために重要な役割を果たす。複雑なインタラクションの今後の探索を容易にするために,複数文字と新しいオブジェクトベースインタラクション推定(MOE)タスクとサポートデータセットからなる,Tchikumaというベンチマークを導入する。 moeはモデルに挑戦し、キャラクターの意図を理解し、マルチキャラクタと新しいオブジェクトインタラクションを含む複雑なコンテキスト内でそれらのアクションを正確に決定する。さらにデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、さらなる調査のために多様で接地的で複雑なインタラクションを提供する。最後に,簡単なプロンプトベースラインを示し,その性能評価を行い,インタラクション理解の促進に有効性を示す。我々のデータセットとタスクが、自然言語との複雑な相互作用をさらに研究し、より高度なAIエージェントの開発を促進することを期待しています。

関連論文リスト

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph [12.54884302440877]
モバイル探索は、ロボット工学における長年の課題である。アクティブな相互作用による既存のロボット探査アプローチは、しばしばテーブルトップシーンに制限される。本稿では,多種多様なオブジェクト関係を符号化し,活発な相互作用による探索を可能にする3Dリレーショナルオブジェクトグラフを提案する。
論文参考訳（メタデータ） (2025-01-23T02:39:04Z)
Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文参考訳（メタデータ） (2024-10-08T02:23:53Z)
A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文参考訳（メタデータ） (2024-09-27T08:17:53Z)
From Persona to Personalization: A Survey on Role-Playing Language Agents [52.783043059715546]
大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭を後押ししている。 RPLAは、人間の類似性と鮮明なロールプレイングパフォーマンスの素晴らしい感覚を達成します。彼らは感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタント、コピロなど、多くのAI応用を触媒してきた。
論文参考訳（メタデータ） (2024-04-28T15:56:41Z)
PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games [18.383262467079078]
PLAYER*は,任意のサンプリングベースプランナと質問駆動検索フレームワークを用いて,Murder Mystery Games(MMG)のパス計画を強化する。エージェントに一連のセンサーを装備することで、PLAYER*は事前に定義された質問を不要にし、エージェントが複雑な社会的相互作用をナビゲートすることを可能にする。また,複数問合せを用いた定量評価手法を導入し,1,482問問問答対を含むデータセットWellPlayを提案する。
論文参考訳（メタデータ） (2024-04-26T19:07:30Z)
Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文参考訳（メタデータ） (2024-03-13T17:50:32Z)
LARP: Language-Agent Role Play for Open-World Games [19.80040627487576]
Language Agent for Role-Playing (LARP)は、メモリ処理と意思決定アシスタントを含む認知アーキテクチャである。このフレームワークは、ユーザとエージェント間のインタラクションを洗練し、ユニークなバックグラウンドとパーソナリティで事前に定義する。エンターテイメント、教育、様々なシミュレーションシナリオなど、さまざまな分野における言語モデルの多彩な利用を強調している。
論文参考訳（メタデータ） (2023-12-24T10:08:59Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
Knowledge-enhanced Agents for Interactive Text Games [16.055119735473017]
テキストベースのゲームにおいてエージェントの機能的接地を改善するための知識注入フレームワークを提案する。学習に基づくエージェントに注入するドメイン知識の2つの形態について考察する。我々のフレームワークは、強化学習エージェントと言語モデルエージェントの2つの代表的なモデルクラスをサポートしている。
論文参考訳（メタデータ） (2023-05-08T23:31:39Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)
SPA: Verbal Interactions between Agents and Avatars in Shared Virtual Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文参考訳（メタデータ） (2020-02-08T23:15:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。