論文の概要: Feudal Reinforcement Learning by Reading Manuals
- arxiv url: http://arxiv.org/abs/2110.06477v1
- Date: Wed, 13 Oct 2021 03:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 15:00:53.219508
- Title: Feudal Reinforcement Learning by Reading Manuals
- Title(参考訳): マニュアル読み上げによる偽強化学習
- Authors: Kai Wang, Zhonghao Wang, Mo Yu, Humphrey Shi
- Abstract要約: 本稿では,マネージャエージェントとワーカーエージェントからなるフェーダル強化学習モデルを提案する。
本モデルは,テキストレベルの推論と低レベルの認識と行動のミスマッチを効果的に軽減する。
- 参考スコア(独自算出の注目度): 23.19226806839748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reading to act is a prevalent but challenging task which requires the ability
to reason from a concise instruction. However, previous works face the semantic
mismatch between the low-level actions and the high-level language descriptions
and require the human-designed curriculum to work properly. In this paper, we
present a Feudal Reinforcement Learning (FRL) model consisting of a manager
agent and a worker agent. The manager agent is a multi-hop plan generator
dealing with high-level abstract information and generating a series of
sub-goals in a backward manner. The worker agent deals with the low-level
perceptions and actions to achieve the sub-goals one by one. In comparison, our
FRL model effectively alleviate the mismatching between text-level inference
and low-level perceptions and actions; and is general to various forms of
environments, instructions and manuals; and our multi-hop plan generator can
significantly boost for challenging tasks where multi-step reasoning form the
texts is critical to resolve the instructed goals. We showcase our approach
achieves competitive performance on two challenging tasks, Read to Fight
Monsters (RTFM) and Messenger, without human-designed curriculum learning.
- Abstract(参考訳): 行動への読み出しは一般的だが挑戦的なタスクであり、簡潔な指示から推論する能力を必要とする。
しかし、以前の研究は低レベルの行動と高レベルの言語記述のセマンティックなミスマッチに直面しており、人間設計のカリキュラムを適切に動作させる必要がある。
本稿では,管理エージェントと作業エージェントからなるフェーダル強化学習(FRL)モデルを提案する。
管理者エージェントは、高レベルの抽象情報を扱っ、一連のサブゴールを後方方向に生成するマルチホッププランジェネレータである。
労働者エージェントは、低レベルの知覚と行動を扱っ、サブゴールを1つずつ達成する。
比較として,本モデルでは,テキストレベルの推論と低レベルの認識と動作のミスマッチを効果的に軽減し,様々な環境,指示,マニュアルに汎用的に対応し,マルチホップ計画生成器は,テキストの多段階推論が指示された目標の解決に不可欠であるような課題に対して,大きな効果を発揮することができる。
我々は,RTFM(Read to Fight Monsters)とMessengerの2つの課題において,人間設計のカリキュラム学習を使わずに,競争力のあるパフォーマンスを実現する方法を紹介した。
関連論文リスト
- Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - LARG, Language-based Automatic Reward and Goal Generation [8.404316955848602]
テキストベースのタスク記述をそれに対応する報酬とゴール生成関数に変換するアプローチを開発する。
ロボット操作に対する我々のアプローチを評価し、スケーラブルな方法でポリシーを訓練および実行できることを実証する。
論文 参考訳(メタデータ) (2023-06-19T14:52:39Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Collaborating with language models for embodied reasoning [30.82976922056617]
複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
論文 参考訳(メタデータ) (2023-02-01T21:26:32Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。