論文の概要: Read and Reap the Rewards: Learning to Play Atari with the Help of
Instruction Manuals
- arxiv url: http://arxiv.org/abs/2302.04449v2
- Date: Sun, 12 Feb 2023 09:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 11:30:51.009904
- Title: Read and Reap the Rewards: Learning to Play Atari with the Help of
Instruction Manuals
- Title(参考訳): 報酬の読み書き:指導マニュアルの助けを借りてatariをプレイすることを学ぶ
- Authors: Yue Wu, Yewen Fan, Paul Pu Liang, Amos Azaria, Yuanzhi Li, Tom M.
Mitchell
- Abstract要約: Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
A2Cはアタリ環境での4つのゲームの改善に成功し、スキーのSOTAエージェント57と比べてトレーニングフレームは1000倍少ない。
- 参考スコア(独自算出の注目度): 60.64520935613191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High sample complexity has long been a challenge for RL. On the other hand,
humans learn to perform tasks not only from interaction or demonstrations, but
also by reading unstructured text documents, e.g., instruction manuals.
Instruction manuals and wiki pages are among the most abundant data that could
inform agents of valuable features and policies or task-specific environmental
dynamics and reward structures. Therefore, we hypothesize that the ability to
utilize human-written instruction manuals to assist learning policies for
specific tasks should lead to a more efficient and better-performing agent.
We propose the Read and Reward framework. Read and Reward speeds up RL
algorithms on Atari games by reading manuals released by the Atari game
developers. Our framework consists of a QA Extraction module that extracts and
summarizes relevant information from the manual and a Reasoning module that
evaluates object-agent interactions based on information from the manual.
Auxiliary reward is then provided to a standard A2C RL agent, when interaction
is detected. When assisted by our design, A2C improves on 4 games in the Atari
environment with sparse rewards, and requires 1000x less training frames
compared to the previous SOTA Agent 57 on Skiing, the hardest game in Atari.
- Abstract(参考訳): 高いサンプルの複雑さは、長い間RLにとって課題だった。
一方、人間は対話やデモンストレーションだけでなく、構造化されていないテキスト文書(例えば指示マニュアル)を読むことでタスクを実行することを学ぶ。
インストラクションマニュアルやwikiページは、貴重な機能やポリシー、タスク固有の環境ダイナミクスや報酬構造をエージェントに知らせる最も豊富なデータである。
そこで本研究では,人手による指導マニュアルを活用すれば,特定のタスクの学習方針を支援する能力が,より効率的で優れたエージェントとなると仮定する。
我々は read and reward framework を提案する。
read and rewardは、atari game developersがリリースしたマニュアルを読むことで、atari gamesのrlアルゴリズムを高速化する。
本フレームワークは,手動から関連情報を抽出・要約するQA抽出モジュールと,手動からの情報に基づいてオブジェクトとエージェントのインタラクションを評価するReasoningモジュールから構成される。
相互作用が検出されると、補助報酬が標準A2C RLエージェントに提供される。
我々の設計によりA2Cは、アタリ環境での4つのゲームの改善に成功し、アタリで最も難しいゲームであるスキーのSOTAエージェント57と比べて1000倍少ないトレーニングフレームを必要とする。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning to Shape Rewards using a Game of Switching Controls [21.456451774045465]
2つのエージェント間の新しいゲームでシェーピング報酬関数を構築する自動RSフレームワークを紹介します。
我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適した整形逆戻り関数を構築することを学ぶことを理論的に証明した。
我々は、Cartpoleの最先端のRSアルゴリズムと挑戦的なコンソールゲームGravitar、Solaris、Super Marioに対する私たちの方法の優れたパフォーマンスを実証します。
論文 参考訳(メタデータ) (2021-03-16T15:56:57Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。