論文の概要: How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and
Act in Fantasy Worlds
- arxiv url: http://arxiv.org/abs/2010.00685v3
- Date: Tue, 25 May 2021 15:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:17:59.257603
- Title: How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and
Act in Fantasy Worlds
- Title(参考訳): ドラゴンをモチベーションする方法:幻想的な世界で話すためのゴール駆動エージェントを教える
- Authors: Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim
Rockt\"aschel, Jason Weston
- Abstract要約: 目標を追求するために、他のエージェントと行動し、コミュニケーションするエージェントを創り出そうとしています。
本稿では,大規模言語モデリングとコモンセンス推論に基づく事前学習を取り入れた強化学習システムを提案する。
我々は、保持された人間の専門家によるデモンストレーションを用いてゼロショット評価を行い、エージェントが彼らのモチベーションに関して一貫して行動し、自然に話すことができることを示す。
- 参考スコア(独自算出の注目度): 47.7511759322784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We seek to create agents that both act and communicate with other agents in
pursuit of a goal. Towards this end, we extend LIGHT (Urbanek et al. 2019) -- a
large-scale crowd-sourced fantasy text-game -- with a dataset of quests. These
contain natural language motivations paired with in-game goals and human
demonstrations; completing a quest might require dialogue or actions (or both).
We introduce a reinforcement learning system that (1) incorporates large-scale
language modeling-based and commonsense reasoning-based pre-training to imbue
the agent with relevant priors; and (2) leverages a factorized action space of
action commands and dialogue, balancing between the two. We conduct zero-shot
evaluations using held-out human expert demonstrations, showing that our agents
are able to act consistently and talk naturally with respect to their
motivations.
- Abstract(参考訳): 目標を追求するために、他のエージェントと行動し、コミュニケーションするエージェントを創り出そうとしています。
この目的に向けて、私たちはlight(urbanek et al. 2019) -- 大規模なクラウドソースのファンタジーテキストゲーム -- をクエストのデータセットで拡張しています。
これらはゲーム内目標と人間のデモと組み合わせた自然言語モチベーションを含み、クエストの完了には対話やアクション(あるいはその両方)が必要になる。
本稿では,(1)大規模言語モデルと常識推論に基づく事前学習を組み込んだ強化学習システムについて紹介する。(2)行動指令と対話の因子化された行動空間を活用し,両者のバランスをとる。
我々は、保持された人間の専門家によるデモンストレーションを用いてゼロショット評価を行い、エージェントが彼らのモチベーションに関して一貫して行動し、自然に話すことができることを示す。
関連論文リスト
- STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models [5.786039929801102]
インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本稿では,テキストベースのRLエージェントを自動生成ゲームでブートストラップし,目標環境の目標を達成するためのパフォーマンスと一般化能力を向上する,自己教師型RL,STARlingのための対話型環境を提案する。
論文 参考訳(メタデータ) (2024-06-09T18:07:47Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - I Cast Detect Thoughts: Learning to Converse and Guide with Intents and
Theory-of-Mind in Dungeons and Dragons [82.28503603235364]
ダンジョンズとドラゴンズにおける目標駆動型環境における教師と学生の自然言語相互作用について検討した。
我々のアプローチは,(1)ダンジョンマスターがプレイヤーを目標に向かって誘導する意図,(2)DMが意図を表現しているプレイヤーへの指示発声,(3)プレイヤーの指導に対する反応を未来へと一変させる理論・オブ・ミンド(ToM)モデルに分解・モデル化することである。
論文 参考訳(メタデータ) (2022-12-20T08:06:55Z) - Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion
Behaviors in Social Deduction Games [45.55448048482881]
本稿では,説得行動のモデル化のための最初のマルチモーダルデータセットを提案する。
データセットには199の対話文とビデオ,26,647の発話レベルアノテーションの説得戦略,ゲームレベルアノテーションの推論ゲーム結果が含まれている。
論文 参考訳(メタデータ) (2022-12-16T04:52:53Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z) - Will I Sound Like Me? Improving Persona Consistency in Dialogues through
Pragmatic Self-Consciousness [62.55060760615656]
一貫性に対処する最近のモデルは、しばしば追加の自然言語推論(NLI)ラベルでトレーニングするか、あるいは一貫性を維持するためにトレーニングされた追加モジュールを生成エージェントにアタッチする。
社会的認知と実用性に触発されて、私たちは既存の対話エージェントに、想像上のリスナーを通して、公的な自己意識を持たせました。
我々のアプローチは、Rational Speech Actsフレームワークに基づいて、会話エージェントに矛盾の発声を控えるように強制することができる。
論文 参考訳(メタデータ) (2020-04-13T08:16:16Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。