論文の概要: Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals
- arxiv url: http://arxiv.org/abs/2302.04449v4
- Date: Sat, 20 Jul 2024 20:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 06:06:15.103199
- Title: Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals
- Title(参考訳): 報酬の読み書き:指導マニュアルの助けを借りてアタリを弾くことを学ぶ
- Authors: Yue Wu, Yewen Fan, Paul Pu Liang, Amos Azaria, Yuanzhi Li, Tom M. Mitchell,
- Abstract要約: Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
- 参考スコア(独自算出の注目度): 69.76245723797368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High sample complexity has long been a challenge for RL. On the other hand, humans learn to perform tasks not only from interaction or demonstrations, but also by reading unstructured text documents, e.g., instruction manuals. Instruction manuals and wiki pages are among the most abundant data that could inform agents of valuable features and policies or task-specific environmental dynamics and reward structures. Therefore, we hypothesize that the ability to utilize human-written instruction manuals to assist learning policies for specific tasks should lead to a more efficient and better-performing agent. We propose the Read and Reward framework. Read and Reward speeds up RL algorithms on Atari games by reading manuals released by the Atari game developers. Our framework consists of a QA Extraction module that extracts and summarizes relevant information from the manual and a Reasoning module that evaluates object-agent interactions based on information from the manual. An auxiliary reward is then provided to a standard A2C RL agent, when interaction is detected. Experimentally, various RL algorithms obtain significant improvement in performance and training speed when assisted by our design.
- Abstract(参考訳): 高いサンプルの複雑さは、長い間RLにとって課題だった。
一方、人間は対話やデモンストレーションだけでなく、非構造化のテキスト文書、例えば指導マニュアルを読むことでタスクを実行することを学ぶ。
インストラクションマニュアルとwikiページは、貴重な特徴やポリシー、タスク固有の環境ダイナミクスや報酬構造をエージェントに知らせることのできる、最も豊富なデータである。
そこで本研究では,人手による指導マニュアルを活用すれば,特定のタスクの学習方針を支援する能力が,より効率的かつ優れたエージェントに繋がるのではないか,という仮説を立てる。
我々はRead and Rewardフレームワークを提案する。
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
本フレームワークは,手動から関連情報を抽出・要約するQA抽出モジュールと,手動からの情報に基づいてオブジェクトとエージェントのインタラクションを評価するReasoningモジュールとから構成される。
そして、相互作用を検出すると、標準A2C RL剤に補助報酬が付与される。
実験により,RLアルゴリズムは設計支援時の性能と訓練速度を大幅に向上させることができた。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning to Shape Rewards using a Game of Switching Controls [21.456451774045465]
2つのエージェント間の新しいゲームでシェーピング報酬関数を構築する自動RSフレームワークを紹介します。
我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適した整形逆戻り関数を構築することを学ぶことを理論的に証明した。
我々は、Cartpoleの最先端のRSアルゴリズムと挑戦的なコンソールゲームGravitar、Solaris、Super Marioに対する私たちの方法の優れたパフォーマンスを実証します。
論文 参考訳(メタデータ) (2021-03-16T15:56:57Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。