論文の概要: On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning
- arxiv url: http://arxiv.org/abs/2106.08199v2
- Date: Tue, 1 Aug 2023 12:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 22:34:46.353170
- Title: On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning
- Title(参考訳): 強化学習ツールとしての多目的政策最適化について:オフラインRLとファインタニングを事例として
- Authors: Abbas Abdolmaleki, Sandy H. Huang, Giulia Vezzani, Bobak Shahriari,
Jost Tobias Springenberg, Shruti Mishra, Dhruva TB, Arunkumar Byravan,
Konstantinos Bousmalis, Andras Gyorgy, Csaba Szepesvari, Raia Hadsell,
Nicolas Heess, Martin Riedmiller
- Abstract要約: より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 24.264618706734012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many advances that have improved the robustness and efficiency of deep
reinforcement learning (RL) algorithms can, in one way or another, be
understood as introducing additional objectives or constraints in the policy
optimization step. This includes ideas as far ranging as exploration bonuses,
entropy regularization, and regularization toward teachers or data priors.
Often, the task reward and auxiliary objectives are in conflict, and in this
paper we argue that this makes it natural to treat these cases as instances of
multi-objective (MO) optimization problems. We demonstrate how this perspective
allows us to develop novel and more effective RL algorithms. In particular, we
focus on offline RL and finetuning as case studies, and show that existing
approaches can be understood as MO algorithms relying on linear scalarization.
We hypothesize that replacing linear scalarization with a better algorithm can
improve performance. We introduce Distillation of a Mixture of Experts (DiME),
a new MORL algorithm that outperforms linear scalarization and can be applied
to these non-standard MO problems. We demonstrate that for offline RL, DiME
leads to a simple new algorithm that outperforms state-of-the-art. For
finetuning, we derive new algorithms that learn to outperform the teacher
policy.
- Abstract(参考訳): ディープ強化学習(RL)アルゴリズムの堅牢性や効率性を改善した多くの進歩は、政策最適化ステップで追加の目的や制約を導入するものとして理解することができる。
これには、探索ボーナス、エントロピー正規化、教師やデータ事前に対する正規化など、幅広いアイデアが含まれている。
課題報酬と補助目的は相反することが多く、本稿ではこれらのケースを多目的最適化問題(MO)の事例として扱うことが自然であると論じる。
この視点によって、より新しくより効率的なRLアルゴリズムが開発できることを示す。
特に,オフラインrlと微調整をケーススタディとして重視し,既存の手法が線形スカラー化に依存するmoアルゴリズムとして理解可能であることを示す。
線形スカラー化をより良いアルゴリズムで置き換えることで、性能を向上させることができると仮定する。
本稿では, 線形スカラー化よりも優れ, 非標準mo問題に適用可能な新しいmorlアルゴリズムであるdime(distillation of a mixture of experts)について紹介する。
オフラインrlでは、dimeは最先端技術を上回る単純な新しいアルゴリズムをもたらすことを実証する。
微調整のために,教師の方針を上回る新しいアルゴリズムを導出する。
関連論文リスト
- Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。
我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。
本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文 参考訳(メタデータ) (2024-10-21T07:33:42Z) - Reinforcement Learning as an Improvement Heuristic for Real-World Production Scheduling [0.0]
1つの有望なアプローチは、RLエージェントを改善として訓練することであり、小さな変更を適用することで反復的に改善される最適以下のソリューションから始まる。
本手法を実世界の多目的生産スケジューリング問題に適用する。
当社のアプローチを、業界パートナの本当のデータを使って、他のアプローチと比較し、その優れたパフォーマンスを実証しました。
論文 参考訳(メタデータ) (2024-09-18T12:48:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。