論文の概要: On the benefits of pixel-based hierarchical policies for task generalization
- arxiv url: http://arxiv.org/abs/2407.19142v1
- Date: Sat, 27 Jul 2024 01:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:40:49.308581
- Title: On the benefits of pixel-based hierarchical policies for task generalization
- Title(参考訳): タスク一般化のための画素ベースの階層的ポリシーの利点について
- Authors: Tudor Cristea-Platon, Bogdan Mazoure, Josh Susskind, Walter Talbott,
- Abstract要約: 強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。
画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
- 参考スコア(独自算出の注目度): 7.207480346660617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning practitioners often avoid hierarchical policies, especially in image-based observation spaces. Typically, the single-task performance improvement over flat-policy counterparts does not justify the additional complexity associated with implementing a hierarchy. However, by introducing multiple decision-making levels, hierarchical policies can compose lower-level policies to more effectively generalize between tasks, highlighting the need for multi-task evaluations. We analyze the benefits of hierarchy through simulated multi-task robotic control experiments from pixels. Our results show that hierarchical policies trained with task conditioning can (1) increase performance on training tasks, (2) lead to improved reward and state-space generalizations in similar tasks, and (3) decrease the complexity of fine tuning required to solve novel tasks. Thus, we believe that hierarchical policies should be considered when building reinforcement learning architectures capable of generalizing between tasks.
- Abstract(参考訳): 強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。
通常、フラットなポリティクスに対するシングルタスクのパフォーマンス改善は、階層の実装に伴う追加の複雑さを正当化するものではない。
しかし、複数の意思決定レベルを導入することで、階層的なポリシは、タスク間のより効率的な一般化のための下位レベルのポリシを構成することができ、マルチタスク評価の必要性を強調します。
画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
この結果から,(1)訓練作業におけるパフォーマンスの向上,(2)同様のタスクにおける報酬や状態空間の一般化の促進,(3)新しいタスクの解決に必要な微調整の複雑さの低減が期待できることがわかった。
そこで我々は,タスク間の一般化が可能な強化学習アーキテクチャを構築する際に,階層的な政策を考えるべきであると考えている。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning [18.415568038071306]
エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
論文 参考訳(メタデータ) (2020-11-16T23:58:49Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。