論文の概要: Diversity for Contingency: Learning Diverse Behaviors for Efficient
Adaptation and Transfer
- arxiv url: http://arxiv.org/abs/2310.07493v1
- Date: Wed, 11 Oct 2023 13:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 22:43:06.616966
- Title: Diversity for Contingency: Learning Diverse Behaviors for Efficient
Adaptation and Transfer
- Title(参考訳): 偶発性のための多様性:効率的な適応と伝達のための多様な行動の学習
- Authors: Finn Rietz and Johannes Andreas Stork
- Abstract要約: 与えられたタスクのすべての可能な解を見つけるための簡単な方法を提案する。
従来の手法とは異なり,本手法では新規性検出のための新たなモデルを学ぶ必要はない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering all useful solutions for a given task is crucial for transferable
RL agents, to account for changes in the task or transition dynamics. This is
not considered by classical RL algorithms that are only concerned with finding
the optimal policy, given the current task and dynamics. We propose a simple
method for discovering all possible solutions of a given task, to obtain an
agent that performs well in the transfer setting and adapts quickly to changes
in the task or transition dynamics. Our method iteratively learns a set of
policies, while each subsequent policy is constrained to yield a solution that
is unlikely under all previous policies. Unlike prior methods, our approach
does not require learning additional models for novelty detection and avoids
balancing task and novelty reward signals, by directly incorporating the
constraint into the action selection and optimization steps.
- Abstract(参考訳): 与えられたタスクに対するすべての有用なソリューションを見つけることは、タスクや遷移ダイナミクスの変化を考慮するために、転送可能なRLエージェントにとって不可欠である。
これは、現在のタスクとダイナミクスを考えると、最適なポリシーを見つけることのみに関心を持つ古典的なRLアルゴリズムでは考慮されていない。
与えられたタスクの全ての可能な解を見つけ、転送設定でうまく動作し、タスクの変更や遷移ダイナミクスに迅速に適応するエージェントを得るための簡単な方法を提案する。
提案手法はポリシーの集合を反復的に学習するが,その後の各ポリシは,従来のすべてのポリシーでは不可能な解が得られるように制約される。
従来の手法と異なり,提案手法では新たな発見のための追加モデルの学習を必要とせず,動作選択や最適化ステップに制約を直接組み込むことで,タスクと新規報酬信号のバランスを回避できる。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。