論文の概要: Optimal Options for Multi-Task Reinforcement Learning Under Time
Constraints
- arxiv url: http://arxiv.org/abs/2001.01620v1
- Date: Mon, 6 Jan 2020 15:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 01:51:43.087616
- Title: Optimal Options for Multi-Task Reinforcement Learning Under Time
Constraints
- Title(参考訳): 時間制約下におけるマルチタスク強化学習の最適選択
- Authors: Manuel Del Verme, Bruno Castro da Silva, Gianluca Baldassarre
- Abstract要約: 強化学習は、反復的な振る舞いを符号化し、探索を促進する方法としてオプションを使うことの恩恵を受けることができる。
エージェントが各タスクを学習するための限られた時間予算を持つ設定において、選択肢の最適性に影響を与える条件について検討する。
得られた選択肢は、利用可能な学習時間予算や、得られた選択肢が人気のある選択肢世代よりも優れているという要因によって大きく異なることを示す。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning can greatly benefit from the use of options as a way
of encoding recurring behaviours and to foster exploration. An important open
problem is how can an agent autonomously learn useful options when solving
particular distributions of related tasks. We investigate some of the
conditions that influence optimality of options, in settings where agents have
a limited time budget for learning each task and the task distribution might
involve problems with different levels of similarity. We directly search for
optimal option sets and show that the discovered options significantly differ
depending on factors such as the available learning time budget and that the
found options outperform popular option-generation heuristics.
- Abstract(参考訳): 強化学習は、反復する振る舞いをエンコードし、探索を促進する方法としてオプションを使用することで、大きな恩恵を受ける。
重要なオープンな問題は、エージェントが関連するタスクの特定の分布を解決する際に、どのように自律的に有用な選択肢を学習できるかである。
エージェントが各タスクを学習するための限られた時間予算を持ち、タスク分布が異なるレベルの類似性の問題が発生するような設定において、選択肢の最適性に影響を与える条件について検討する。
最適なオプションセットを直接検索し,利用可能な学習時間予算などの要因によって検出されたオプションが,一般的なオプション生成ヒューリスティックよりも大幅に異なることを示す。
関連論文リスト
- Finding Optimal Diverse Feature Sets with Alternative Feature Selection [0.0]
代替機能の選択を導入し、最適化問題として定式化する。
特に,制約によって代替品を定義し,利用者が代替品の数や相違を制御できるようにする。
本研究では,一定要素近似が一定の条件下で存在することを示し,対応する探索法を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:23:41Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Learning Diverse Options via InfoMax Termination Critic [0.0]
我々は、強化学習において、再利用可能な時間的拡張行動や選択肢を自律的に学習する問題を考察する。
近年の相互情報に基づくスキル学習の成功に触発されて、より多様な選択肢がより再利用できるという仮説を立てた。
オプションと対応する状態遷移の間のMIを最大化することにより、オプションの勾配を学習する方法を提案する。
論文 参考訳(メタデータ) (2020-10-06T14:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。