論文の概要: Efficient Skill Discovery via Regret-Aware Optimization
- arxiv url: http://arxiv.org/abs/2506.21044v1
- Date: Thu, 26 Jun 2025 06:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.003839
- Title: Efficient Skill Discovery via Regret-Aware Optimization
- Title(参考訳): レグレト・アウェア最適化による効率的なスキル発見
- Authors: He Zhang, Ming Zhou, Shaopeng Zhai, Ying Sun, Hui Xiong,
- Abstract要約: 我々は、スキル生成とポリシー学習のミニマックスゲームとしてスキル発見の枠組みを定めている。
本稿では,時間的表現学習に基づく後悔認識手法を提案する。
提案手法は高次元環境において15%ゼロショット改善を実現する。
- 参考スコア(独自算出の注目度): 37.27136009415794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised skill discovery aims to learn diverse and distinguishable behaviors in open-ended reinforcement learning. For existing methods, they focus on improving diversity through pure exploration, mutual information optimization, and learning temporal representation. Despite that they perform well on exploration, they remain limited in terms of efficiency, especially for the high-dimensional situations. In this work, we frame skill discovery as a min-max game of skill generation and policy learning, proposing a regret-aware method on top of temporal representation learning that expands the discovered skill space along the direction of upgradable policy strength. The key insight behind the proposed method is that the skill discovery is adversarial to the policy learning, i.e., skills with weak strength should be further explored while less exploration for the skills with converged strength. As an implementation, we score the degree of strength convergence with regret, and guide the skill discovery with a learnable skill generator. To avoid degeneration, skill generation comes from an up-gradable population of skill generators. We conduct experiments on environments with varying complexities and dimension sizes. Empirical results show that our method outperforms baselines in both efficiency and diversity. Moreover, our method achieves a 15% zero shot improvement in high-dimensional environments, compared to existing methods.
- Abstract(参考訳): 教師なしのスキル発見は、オープンエンドの強化学習において、多様で区別可能な振る舞いを学ぶことを目的としている。
既存の手法では、純粋な探索、相互情報最適化、時間的表現の学習による多様性の向上に重点を置いている。
探検でよく機能するにもかかわらず、特に高次元の状況において、効率の面では限定的のままである。
本研究では,スキル生成と政策学習のミニマックスゲームとしてスキル発見の枠組みを定め,時間的表現学習の上に後悔を意識した手法を提案し,そのスキル空間を向上可能な政策強度の方向に沿って拡大する。
提案手法の背景にある重要な洞察は、スキル発見は政策学習に逆らうものであり、すなわち、弱い力を持つスキルをさらに探求し、収束した力を持つスキルの探索を減らすべきであるということである。
実装として、後悔と共に強度収束度をスコアし、学習可能なスキルジェネレータを用いてスキル発見を指導する。
劣化を避けるために、スキルジェネレータのアップグレード可能な人口からスキルジェネレータが生まれる。
複雑度と寸法の異なる環境で実験を行う。
実験結果から,本手法は効率と多様性の両方においてベースラインを上回っていることがわかった。
さらに,本手法は従来の手法に比べて高次元環境において15%ゼロショット改善を実現している。
関連論文リスト
- Human-Aligned Skill Discovery: Balancing Behaviour Exploration and Alignment [14.948610521764415]
我々は、より安全でより整合したスキルを発見するために、ヒューマンアライメントスキル発見(HaSD)を提案する。
HaSDはスキルの多様性と人間の価値との整合性を同時に最適化する。
2次元ナビゲーションとセーフティガイムナシウム環境の両方で有効性を示す。
論文 参考訳(メタデータ) (2025-01-29T06:14:27Z) - SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Unsupervised Discovery of Continuous Skills on a Sphere [15.856188608650228]
球面上の連続的スキルの発見(DISCS)と呼ばれる,無限の異なるスキルを学習するための新しい手法を提案する。
DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。
DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-21T06:29:41Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。