論文の概要: Learning to Follow Instructions in Text-Based Games
- arxiv url: http://arxiv.org/abs/2211.04591v1
- Date: Tue, 8 Nov 2022 22:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:53:41.950452
- Title: Learning to Follow Instructions in Text-Based Games
- Title(参考訳): テキストベースのゲームにおける指示に従う学習
- Authors: Mathieu Tuli, Andrew C. Li, Pashootan Vaezipoor, Toryn Q. Klassen,
Scott Sanner, Sheila A. McIlraith
- Abstract要約: 本研究では,強化学習エージェントが自然言語の指示に従う能力について検討する。
我々はRLエージェントに自然言語命令の内部構造表現を線形時間論理の形で装備する。
我々のフレームワークは、命令の時間的意味論を理解することの利点を共にサポートし、強調します。
- 参考スコア(独自算出の注目度): 30.713430615498375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based games present a unique class of sequential decision making problem
in which agents interact with a partially observable, simulated environment via
actions and observations conveyed through natural language. Such observations
typically include instructions that, in a reinforcement learning (RL) setting,
can directly or indirectly guide a player towards completing reward-worthy
tasks. In this work, we study the ability of RL agents to follow such
instructions. We conduct experiments that show that the performance of
state-of-the-art text-based game agents is largely unaffected by the presence
or absence of such instructions, and that these agents are typically unable to
execute tasks to completion. To further study and address the task of
instruction following, we equip RL agents with an internal structured
representation of natural language instructions in the form of Linear Temporal
Logic (LTL), a formal language that is increasingly used for temporally
extended reward specification in RL. Our framework both supports and highlights
the benefit of understanding the temporal semantics of instructions and in
measuring progress towards achievement of such a temporally extended behaviour.
Experiments with 500+ games in TextWorld demonstrate the superior performance
of our approach.
- Abstract(参考訳): テキストベースのゲームは、エージェントが自然言語を通じて伝達される行動や観察を通じて部分的に観察可能なシミュレーション環境と対話する、一連の意思決定のユニークなクラスを示す。
このような観察には典型的に、強化学習(RL)の設定で、プレイヤーが報酬に値するタスクを完了するために直接または間接的に導くことができる指示が含まれる。
本研究では,RLエージェントがそのような指示に従う能力について検討する。
我々は,最先端のテキストベースのゲームエージェントの性能が,これらの命令の有無によってほとんど影響を受けないことを示す実験を行い,これらのエージェントは一般的に完了までタスクを実行できないことを示した。
さらに, 命令追従の課題をさらに研究し, 対処するために, rl の時間拡張報酬仕様にますます使われる形式言語である線形時相論理 (ltl) という形で, 自然言語命令の内部構造表現を rl エージェントに実装する。
我々のフレームワークは、指示の時間的意味論の理解と、そのような時間的拡張行動の達成に向けての進捗測定の利点を共にサポートし、強調する。
TextWorldでの500以上のゲームによる実験は、我々のアプローチの優れたパフォーマンスを示している。
関連論文リスト
- Vision-Language Models Provide Promptable Representations for
Reinforcement Learning [73.63538447814504]
人間は、バックグラウンドワールドの知識を活用することで、素早く新しい行動を学ぶことができる。
視覚言語モデルに符号化された多量の一般および索引可能な世界知識を利用する新しい手法を提案する。
本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - CODEX: A Cluster-Based Method for Explainable Reinforcement Learning [0.0]
本稿では,状態-作用空間におけるRLエージェントの挙動を効果的に要約できる意味的クラスタリングを取り入れた手法を提案する。
MiniGridとStarCraft IIのゲーム環境での実験では、セマンティッククラスタは時間的およびエンティティ情報を保持する。
論文 参考訳(メタデータ) (2023-12-07T11:04:37Z) - ETHER: Aligning Emergent Communication for Hindsight Experience Replay [0.1747623282473278]
自然言語条件強化学習(RL)エージェントは、構成性などの自然言語の性質が、複雑な政策を学ぶための強い帰納バイアスをもたらすことを示した。
Hindsight Experience Replay (HER)と言語コンディショニングの利点を組み合わせたHIGhERのような以前のアーキテクチャは、スパース報酬環境に対処する。
本研究では,BabyAIベンチマークの目標記述に使用される自然言語と一致した人工言語が出現することを示す。
論文 参考訳(メタデータ) (2023-07-28T11:42:31Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of
Instruction Manuals [73.92140342353012]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Inherently Explainable Reinforcement Learning in Natural Language [14.117921448623342]
本稿では,本質的に説明可能な強化学習エージェントの開発に焦点をあてる。
この階層的説明可能な強化学習エージェントは、インタラクティブフィクション、テキストベースのゲーム環境で動作する。
私たちのエージェントは、説明責任を第一級市民として扱うように設計されています。
論文 参考訳(メタデータ) (2021-12-16T14:24:35Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines [40.03754436370682]
テキストワールド・コモンセンスにコモンセンスの知識を取り入れたエージェントは,より効率的に行動しながら,より優れた行動を示す。
我々は,TWC上での人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
論文 参考訳(メタデータ) (2020-10-08T06:20:00Z) - Sub-Instruction Aware Vision-and-Language Navigation [46.99329933894108]
視覚と言語のナビゲーションには、エージェントが自然言語の指示に従って実際の3D環境をナビゲートする必要がある。
視覚的および言語的シーケンスの粒度、および命令の完了によるエージェントのトレーサビリティに焦点を当てる。
本稿では,1つのサブインストラクションを各タイミングで選択・参加する効果的なサブインストラクション・アテンション・アテンションとシフトモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-06T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。