論文の概要: The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.09653v1
- Date: Mon, 24 Jan 2022 13:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 14:38:57.730723
- Title: The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning
- Title(参考訳): 選択のパラドックス:階層的強化学習における注意の活用
- Authors: Andrei Nica, Khimya Khetarpal, Doina Precup
- Abstract要約: サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
- 参考スコア(独自算出の注目度): 59.777127897688594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making AI agents are often faced with two important challenges: the
depth of the planning horizon, and the branching factor due to having many
choices. Hierarchical reinforcement learning methods aim to solve the first
problem, by providing shortcuts that skip over multiple time steps. To cope
with the breadth, it is desirable to restrict the agent's attention at each
step to a reasonable number of possible choices. The concept of affordances
(Gibson, 1977) suggests that only certain actions are feasible in certain
states. In this work, we model "affordances" through an attention mechanism
that limits the available choices of temporally extended options. We present an
online, model-free algorithm to learn affordances that can be used to further
learn subgoal options. We investigate the role of hard versus soft attention in
training data collection, abstract value learning in long-horizon tasks, and
handling a growing number of choices. We identify and empirically illustrate
the settings in which the paradox of choice arises, i.e. when having fewer but
more meaningful choices improves the learning speed and performance of a
reinforcement learning agent.
- Abstract(参考訳): 意思決定AIエージェントは、計画の地平線の深さと、多くの選択肢があるため分岐要因という、2つの重要な課題に直面していることが多い。
階層的強化学習は、複数の時間ステップをスキップするショートカットを提供することで、最初の問題を解決することを目的としている。
広さに対応するためには、各ステップにおけるエージェントの注意を合理的な選択肢数に限定することが望ましい。
アフォーダンスの概念(gibson, 1977)は、特定の州では特定の行動のみが実現可能であることを示唆している。
本研究では,時間的拡張オプションの選択を制限した注意機構によって「適応性」をモデル化する。
サブゴールオプションをさらに学習するために,オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
選択のパラドックスが発生する環境、すなわち、より少ないが有意義な選択が強化学習エージェントの学習速度とパフォーマンスを改善する場合を識別し、実証的に示す。
関連論文リスト
- Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term Constraints [34.154704060947246]
マルコフ決定過程(CMDP)におけるオンライン学習の研究
我々は,長期制約のあるCMDPに対して,初めてのベスト・オブ・ワールドズ・アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-04-27T16:58:29Z) - Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - Exploring with Sticky Mittens: Reinforcement Learning with Expert
Interventions via Option Templates [31.836234758355243]
本稿では,長期強化学習課題の解決に専門家の介入を活用する枠組みを提案する。
我々は、強化学習を用いてトレーニング可能な潜在的オプションを符号化する仕様であるオプションテンプレートについて検討する。
我々は,3つの強化学習問題に対するアプローチを評価した結果,最先端のアプローチを桁違いに上回る結果となった。
論文 参考訳(メタデータ) (2022-02-25T20:55:34Z) - GrASP: Gradient-Based Affordance Selection for Planning [25.548880832898757]
学習したモデルで計画することは、インテリジェンスの重要な要素であることは間違いない。
本稿では,計画に有用な価格選択手法を提案する。
プリミティブアクションとオプションの価格の両方を選択することを学ぶことは可能であることを示す。
論文 参考訳(メタデータ) (2022-02-08T03:24:36Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Diversity-Enriched Option-Critic [47.82697599507171]
提案手法は,複数の個別かつ連続的な制御タスクにおいて,エンドツーエンドの選択肢を学習することができることを示す。
我々のアプローチは、オプション批判とは対照的に、堅牢で、再利用可能な、信頼性があり、解釈可能なオプションを生成します。
論文 参考訳(メタデータ) (2020-11-04T22:12:54Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。