論文の概要: Horizon Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.02709v1
- Date: Mon, 06 Jan 2025 01:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:41.741594
- Title: Horizon Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における水平一般化
- Authors: Vivek Myers, Catherine Ji, Benjamin Eysenbach,
- Abstract要約: 一般化のレンズを通してゴール条件付きRLを研究するが、従来のランダム拡張とドメインランダム化の意味ではそうではない。
地平線一般化の概念は計画の不変性と密接に関連していることを示す。
目標に向かって航行する政策は、その目標に向かう途中のルートポイントに向かっているように、同じ行動を選択する。したがって、近くの目標に到達するために訓練された政策は、任意に距離を置く目標に達することに成功すべきである。
- 参考スコア(独自算出の注目度): 22.372738655730107
- License:
- Abstract: We study goal-conditioned RL through the lens of generalization, but not in the traditional sense of random augmentations and domain randomization. Rather, we aim to learn goal-directed policies that generalize with respect to the horizon: after training to reach nearby goals (which are easy to learn), these policies should succeed in reaching distant goals (which are quite challenging to learn). In the same way that invariance is closely linked with generalization is other areas of machine learning (e.g., normalization layers make a network invariant to scale, and therefore generalize to inputs of varying scales), we show that this notion of horizon generalization is closely linked with invariance to planning: a policy navigating towards a goal will select the same actions as if it were navigating to a waypoint en route to that goal. Thus, such a policy trained to reach nearby goals should succeed at reaching arbitrarily-distant goals. Our theoretical analysis proves that both horizon generalization and planning invariance are possible, under some assumptions. We present new experimental results and recall findings from prior work in support of our theoretical results. Taken together, our results open the door to studying how techniques for invariance and generalization developed in other areas of machine learning might be adapted to achieve this alluring property.
- Abstract(参考訳): 一般化のレンズを通してゴール条件付きRLを研究するが、従来のランダム拡張とドメインランダム化の意味ではそうではない。
むしろ、私たちは、地平線に関して一般化する、ゴール指向のポリシーを学ぼうとしています: 近くの目標に達するためのトレーニング(これは簡単に学ぶことができる)の後、これらのポリシーは、遠くの目標に達することに成功すべきです(これは、学ぶのは非常に難しいことです)。
一般化と密接な結びつきは、機械学習の他の領域(例えば、正規化層はスケールにネットワーク不変であり、従って様々なスケールの入力に一般化する)であるのと同じように、水平化の一般化の概念が計画の不変性と密接に関連していることを示す。
したがって、近くの目標に達するように訓練された政策は、任意に距離を置く目標に達することに成功すべきである。
我々の理論的解析は、いくつかの仮定の下で、地平線一般化と計画不変性の両方が可能であることを証明している。
提案する理論結果を支援するために, 先行研究の新たな実験結果とリコール結果を提案する。
本研究の結果は,機械学習の他の分野での不変性や一般化の手法が,この適応性を実現するためにどのように適応されるかを研究するための扉を開くものである。
関連論文リスト
- Learning to Ground Existentially Quantified Goals [10.343546104340962]
自律的なAIエージェントのためのゴール命令は、オブジェクトがユニークな名前を持っていると仮定することはできない。
これは古典的な計画と一般化された計画の両方において問題を引き起こす。
本研究では,新しい教師付き学習手法を用いて,目標設定問題に対処する。
論文 参考訳(メタデータ) (2024-09-30T12:49:27Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - On the Power of Pre-training for Generalization in RL: Provable Benefits
and Hardness [47.09873295916592]
強化学習(RL)の一般化は、目標環境に一般化する訓練中にエージェントを学習することを目的としている。
本稿では,RLの一般化を理論的側面から考察する。
対象環境との相互作用が許されていない場合、我々は得られる最善策が平均的な意味でほぼ最適であると証明し、この目標を達成するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-19T10:58:24Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。