論文の概要: Possibility Before Utility: Learning And Using Hierarchical Affordances
- arxiv url: http://arxiv.org/abs/2203.12686v1
- Date: Wed, 23 Mar 2022 19:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:43:15.950101
- Title: Possibility Before Utility: Learning And Using Hierarchical Affordances
- Title(参考訳): 実用前の可能性:学習と階層的アフォーアンスの利用
- Authors: Robby Costales and Shariq Iqbal and Fei Sha
- Abstract要約: 強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。
本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
- 参考スコア(独自算出の注目度): 21.556661319375255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms struggle on tasks with complex hierarchical
dependency structures. Humans and other intelligent agents do not waste time
assessing the utility of every high-level action in existence, but instead only
consider ones they deem possible in the first place. By focusing only on what
is feasible, or "afforded", at the present moment, an agent can spend more time
both evaluating the utility of and acting on what matters. To this end, we
present Hierarchical Affordance Learning (HAL), a method that learns a model of
hierarchical affordances in order to prune impossible subtasks for more
effective learning. Existing works in hierarchical reinforcement learning
provide agents with structural representations of subtasks but are not
affordance-aware, and by grounding our definition of hierarchical affordances
in the present state, our approach is more flexible than the multitude of
approaches that ground their subtask dependencies in a symbolic history. While
these logic-based methods often require complete knowledge of the subtask
hierarchy, our approach is able to utilize incomplete and varying symbolic
specifications. Furthermore, we demonstrate that relative to
non-affordance-aware methods, HAL agents are better able to efficiently learn
complex tasks, navigate environment stochasticity, and acquire diverse skills
in the absence of extrinsic supervision -- all of which are hallmarks of human
learning.
- Abstract(参考訳): 強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。
人間や他の知的エージェントは、存在するすべてのハイレベルなアクションの有用性を評価する時間を無駄にせず、まず最初に考えられるものだけを考える。
現段階では、実現可能なもののみに焦点を合わせることで、エージェントは、何が重要なのかを評価するのと行動の両方により多くの時間を費やすことができる。
そこで本研究では,より効果的な学習のために,難解なサブタスクをプルーピングするために階層的アフォーアンスモデルを学ぶ手法である階層的アフォーアンス学習(hal)を提案する。
既存の階層的強化学習では,サブタスクの構造的表現をエージェントに提供しているが,アベイランスを意識していないため,現状では階層的アベイランスの定義を根拠にすることで,サブタスクの依存関係を象徴的な歴史に根ざしたアプローチよりも柔軟である。
これらの論理ベースのメソッドはサブタスク階層の完全な知識を必要とすることが多いが、このアプローチは不完全で多様なシンボリックな仕様を活用できる。
さらに,halエージェントは,非適応認識手法と比較して,複雑なタスクを効率的に学習し,環境確率をナビゲートし,多彩な指導の欠如により多様なスキルを身につけることができることを実証する。
関連論文リスト
- DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning [36.50275602760051]
DIPPER: 原始許容階層型強化学習の高速化のための直接選好最適化について紹介する。
直接選好最適化を利用する効率的な階層的アプローチであり、より高度な政策を学ぶために、そして低レベルの政策を学ぶために強化学習を行う。
標準的な嗜好に基づくアプローチではなく、直接選好最適化を使用することで、計算効率の向上を享受している。
論文 参考訳(メタデータ) (2024-06-16T10:49:41Z) - Creating Multi-Level Skill Hierarchies in Reinforcement Learning [0.0]
エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。
提案手法では,多段階の抽象化で相互作用グラフの構造を明らかにするための中心的な組織原理として,モジュラリティ最大化を用いる。
論文 参考訳(メタデータ) (2023-06-16T17:23:49Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。