論文の概要: Learning to Follow Instructions in Text-Based Games
- arxiv url: http://arxiv.org/abs/2211.04591v1
- Date: Tue, 8 Nov 2022 22:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:53:41.950452
- Title: Learning to Follow Instructions in Text-Based Games
- Title(参考訳): テキストベースのゲームにおける指示に従う学習
- Authors: Mathieu Tuli, Andrew C. Li, Pashootan Vaezipoor, Toryn Q. Klassen,
Scott Sanner, Sheila A. McIlraith
- Abstract要約: 本研究では,強化学習エージェントが自然言語の指示に従う能力について検討する。
我々はRLエージェントに自然言語命令の内部構造表現を線形時間論理の形で装備する。
我々のフレームワークは、命令の時間的意味論を理解することの利点を共にサポートし、強調します。
- 参考スコア(独自算出の注目度): 30.713430615498375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based games present a unique class of sequential decision making problem
in which agents interact with a partially observable, simulated environment via
actions and observations conveyed through natural language. Such observations
typically include instructions that, in a reinforcement learning (RL) setting,
can directly or indirectly guide a player towards completing reward-worthy
tasks. In this work, we study the ability of RL agents to follow such
instructions. We conduct experiments that show that the performance of
state-of-the-art text-based game agents is largely unaffected by the presence
or absence of such instructions, and that these agents are typically unable to
execute tasks to completion. To further study and address the task of
instruction following, we equip RL agents with an internal structured
representation of natural language instructions in the form of Linear Temporal
Logic (LTL), a formal language that is increasingly used for temporally
extended reward specification in RL. Our framework both supports and highlights
the benefit of understanding the temporal semantics of instructions and in
measuring progress towards achievement of such a temporally extended behaviour.
Experiments with 500+ games in TextWorld demonstrate the superior performance
of our approach.
- Abstract(参考訳): テキストベースのゲームは、エージェントが自然言語を通じて伝達される行動や観察を通じて部分的に観察可能なシミュレーション環境と対話する、一連の意思決定のユニークなクラスを示す。
このような観察には典型的に、強化学習(RL)の設定で、プレイヤーが報酬に値するタスクを完了するために直接または間接的に導くことができる指示が含まれる。
本研究では,RLエージェントがそのような指示に従う能力について検討する。
我々は,最先端のテキストベースのゲームエージェントの性能が,これらの命令の有無によってほとんど影響を受けないことを示す実験を行い,これらのエージェントは一般的に完了までタスクを実行できないことを示した。
さらに, 命令追従の課題をさらに研究し, 対処するために, rl の時間拡張報酬仕様にますます使われる形式言語である線形時相論理 (ltl) という形で, 自然言語命令の内部構造表現を rl エージェントに実装する。
我々のフレームワークは、指示の時間的意味論の理解と、そのような時間的拡張行動の達成に向けての進捗測定の利点を共にサポートし、強調する。
TextWorldでの500以上のゲームによる実験は、我々のアプローチの優れたパフォーマンスを示している。
関連論文リスト
- STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models [5.786039929801102]
インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本稿では,テキストベースのRLエージェントを自動生成ゲームでブートストラップし,目標環境の目標を達成するためのパフォーマンスと一般化能力を向上する,自己教師型RL,STARlingのための対話型環境を提案する。
論文 参考訳(メタデータ) (2024-06-09T18:07:47Z) - On the Effects of Fine-tuning Language Models for Text-Based Reinforcement Learning [19.057241328691077]
テキストベースRLエージェントの効率的な訓練には,意味理解の充実が寄与することを示す。
本稿では,言語モデルの不適切な微調整の結果,意味的変性の発生について述べる。
論文 参考訳(メタデータ) (2024-04-15T23:05:57Z) - EXPLORER: Exploration-guided Reasoning for Textual Reinforcement Learning [23.83162741035859]
テキスト強化学習のための探索誘導推論剤であるEXPLORERについて述べる。
実験の結果,EXPLORERはテキストワールド調理(TW-Cooking)およびテキストワールドコモンセンス(TWC)ゲームにおいて,ベースラインエージェントよりも優れていた。
論文 参考訳(メタデータ) (2024-03-15T21:22:37Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Inherently Explainable Reinforcement Learning in Natural Language [14.117921448623342]
本稿では,本質的に説明可能な強化学習エージェントの開発に焦点をあてる。
この階層的説明可能な強化学習エージェントは、インタラクティブフィクション、テキストベースのゲーム環境で動作する。
私たちのエージェントは、説明責任を第一級市民として扱うように設計されています。
論文 参考訳(メタデータ) (2021-12-16T14:24:35Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。