論文の概要: Dialogue Shaping: Empowering Agents through NPC Interaction
- arxiv url: http://arxiv.org/abs/2307.15833v1
- Date: Fri, 28 Jul 2023 22:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 19:14:05.006960
- Title: Dialogue Shaping: Empowering Agents through NPC Interaction
- Title(参考訳): 対話形成:NPCインタラクションによるエージェントの強化
- Authors: Wei Zhou, Xiangyu Peng, Mark Riedl
- Abstract要約: 非プレイヤーキャラクタ(NPC)はゲームに関するいくつかの重要な情報を保持しており、RLエージェントのトレーニングを高速化するのに役立つ可能性がある。
本稿では,大規模言語モデル(LLM)を用いてNPCエージェントと対話し,キー情報を取得する方法について検討する。
- 参考スコア(独自算出の注目度): 11.847150109599982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One major challenge in reinforcement learning (RL) is the large amount of
steps for the RL agent needs to converge in the training process and learn the
optimal policy, especially in text-based game environments where the action
space is extensive. However, non-player characters (NPCs) sometimes hold some
key information about the game, which can potentially help to train RL agents
faster. Thus, this paper explores how to interact and converse with NPC agents
to get the key information using large language models (LLMs), as well as
incorporate this information to speed up RL agent's training using knowledge
graphs (KGs) and Story Shaping.
- Abstract(参考訳): 強化学習(RL)における大きな課題のひとつは、特にアクション空間が広いテキストベースのゲーム環境において、RLエージェントがトレーニングプロセスに収束し、最適なポリシーを学ぶ必要があることである。
しかし、NPC(Non-player character)はゲームに関するいくつかの重要な情報を保持しており、RLエージェントのトレーニングを高速化するのに役立つ可能性がある。
そこで本稿では,大規模言語モデル(LLM)を用いてNPCエージェントと対話し,キー情報を取得する方法を検討するとともに,知識グラフ(KG)とストーリーシェーピング(Story Shaping)を用いたRLエージェントのトレーニングを高速化する。
関連論文リスト
- Reinforcing Competitive Multi-Agents for Playing So Long Sucker [0.393259574660092]
本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
論文 参考訳(メタデータ) (2024-11-17T12:38:13Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models [5.786039929801102]
インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本稿では,テキストベースのRLエージェントを自動生成ゲームでブートストラップし,目標環境の目標を達成するためのパフォーマンスと一般化能力を向上する,自己教師型RL,STARlingのための対話型環境を提案する。
論文 参考訳(メタデータ) (2024-06-09T18:07:47Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Improving Reinforcement Learning with Human Assistance: An Argument for
Human Subject Studies with HIPPO Gym [21.4215863934377]
強化学習(Reinforcement Learning、RL)は、ゲームプレイ、ロボティクス制御、その他のシーケンシャルな意思決定タスクのための一般的な機械学習パラダイムである。
本稿では,オープンソースRLフレームワークであるHuman Input Parsing Platform for Openai Gym(HIPPO Gym)を紹介します。
論文 参考訳(メタデータ) (2021-02-02T12:56:02Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines [40.03754436370682]
テキストワールド・コモンセンスにコモンセンスの知識を取り入れたエージェントは,より効率的に行動しながら,より優れた行動を示す。
我々は,TWC上での人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
論文 参考訳(メタデータ) (2020-10-08T06:20:00Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。