論文の概要: AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification
- arxiv url: http://arxiv.org/abs/2506.05980v1
- Date: Fri, 06 Jun 2025 10:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.440806
- Title: AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification
- Title(参考訳): AMPED:探索とスキルの多様性のバランスをとるための適応的多目的投影
- Authors: Geonwoo Cho, Jaemoon Lee, Jaegyun Im, Subi Lee, Jihwan Lee, Sundong Kim,
- Abstract要約: 本稿では,探索とスキル多様化のバランスをとるための適応多目的投影法(AMPED)を提案する。
AMPEDは、探索とスキル多様性の目標をバランスさせ、対立を緩和し、チューニングへの依存を減らすための勾配手術技術を導入している。
提案手法は,様々なベンチマークにおいてSBRLベースラインを超えている。
- 参考スコア(独自算出の注目度): 5.404569468550549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill-based reinforcement learning (SBRL) enables rapid adaptation in environments with sparse rewards by pretraining a skill-conditioned policy. Effective skill learning requires jointly maximizing both exploration and skill diversity. However, existing methods often face challenges in simultaneously optimizing for these two conflicting objectives. In this work, we propose a new method, Adaptive Multi-objective Projection for balancing Exploration and skill Diversification (AMPED), which explicitly addresses both exploration and skill diversification. We begin by conducting extensive ablation studies to identify and define a set of objectives that effectively capture the aspects of exploration and skill diversity, respectively. During the skill pretraining phase, AMPED introduces a gradient surgery technique to balance the objectives of exploration and skill diversity, mitigating conflicts and reducing reliance on heuristic tuning. In the subsequent fine-tuning phase, AMPED incorporates a skill selector module that dynamically selects suitable skills for downstream tasks, based on task-specific performance signals. Our approach achieves performance that surpasses SBRL baselines across various benchmarks. These results highlight the importance of explicitly harmonizing exploration and diversity and demonstrate the effectiveness of AMPED in enabling robust and generalizable skill learning. Project Page: https://geonwoo.me/amped/
- Abstract(参考訳): スキルベース強化学習(SBRL)は、スキル条件付き政策を事前訓練することにより、スパース報酬のある環境への迅速な適応を可能にする。
効果的なスキル学習には、探索とスキルの多様性の両方を共同で最大化する必要がある。
しかし、既存の手法はしばしば、この2つの矛盾する目標を同時に最適化する際の課題に直面している。
本研究では,探索とスキル多様化のバランスをとるための適応多目的投影法(AMPED)を提案する。
まず、探索の側面とスキルの多様性を効果的に把握する目的のセットを特定し、定義するために、広範囲にわたるアブレーション研究を行うことから始めます。
AMPEDは、スキル事前トレーニングフェーズにおいて、探索とスキル多様性の目標のバランスをとるための勾配手術技術を導入し、対立を緩和し、ヒューリスティックチューニングへの依存を減らす。
その後の微調整フェーズでは、AMPEDはタスク固有のパフォーマンス信号に基づいて、下流タスクに適したスキルを動的に選択するスキルセレクタモジュールを組み込む。
提案手法は,SBRLのベースラインを超える性能を,様々なベンチマークで達成する。
これらの結果は、探索と多様性を明確に調和させることの重要性を強調し、堅牢で一般化可能なスキル学習の実現におけるAMPEDの有効性を示す。
Project Page: https://geonwoo.me/amped/
関連論文リスト
- Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - L-SA: Learning Under-Explored Targets in Multi-Target Reinforcement
Learning [16.886934253882785]
適応サンプリングとアクティブクエリを含むL-SA(Adaptive Smpling and Active querying)フレームワークを提案する。
L-SAフレームワークでは、動的サンプリングが成功率が最も高いターゲットを動的にサンプリングする。
適応サンプリングとアクティブクエリの循環的関係は,探索対象の標本の豊かさを効果的に向上させることを実験的に実証した。
論文 参考訳(メタデータ) (2023-05-23T06:51:51Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。