論文の概要: Focused Skill Discovery: Learning to Control Specific State Variables while Minimizing Side Effects
- arxiv url: http://arxiv.org/abs/2510.04901v1
- Date: Mon, 06 Oct 2025 15:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.933372
- Title: Focused Skill Discovery: Learning to Control Specific State Variables while Minimizing Side Effects
- Title(参考訳): 集中型スキル発見: 副作用を最小限に抑えながら、特定の状態変数を制御する学習
- Authors: Jonathan Colaço Carr, Qinyi Sun, Cameron Allen,
- Abstract要約: スキル発見アルゴリズムは、しばしば強化学習問題に存在する自然状態変数を見落とします。
本稿では,これらのスキル発見アルゴリズムを用いて,特定の状態変数をターゲットとし,制御するスキルを学習する一般手法を提案する。
提案手法は,3因子による状態空間のカバレッジ向上,新たな学習能力の開放,下流タスクにおける負の副作用を自動的に回避する。
- 参考スコア(独自算出の注目度): 3.0035365527953526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skills are essential for unlocking higher levels of problem solving. A common approach to discovering these skills is to learn ones that reliably reach different states, thus empowering the agent to control its environment. However, existing skill discovery algorithms often overlook the natural state variables present in many reinforcement learning problems, meaning that the discovered skills lack control of specific state variables. This can significantly hamper exploration efficiency, make skills more challenging to learn with, and lead to negative side effects in downstream tasks when the goal is under-specified. We introduce a general method that enables these skill discovery algorithms to learn focused skills -- skills that target and control specific state variables. Our approach improves state space coverage by a factor of three, unlocks new learning capabilities, and automatically avoids negative side effects in downstream tasks.
- Abstract(参考訳): 高度な問題解決を解き明かすにはスキルが不可欠だ。
これらのスキルを発見するための一般的なアプローチは、異なる状態に確実に到達するスキルを学習し、エージェントがその環境を制御する権限を与えることである。
しかし、既存のスキル発見アルゴリズムは、多くの強化学習問題に存在する自然状態変数を見落としていることが多い。
これは探索の効率を著しく妨げ、スキルを習得しにくくし、目標が未特定の場合には下流のタスクに悪影響を及ぼす可能性がある。
これらのスキル発見アルゴリズムは,特定の状態変数をターゲットとし,制御する,集中型スキルを学習するための一般的な手法を提案する。
提案手法は,3因子で状態空間のカバレッジを向上し,新たな学習能力を開放し,下流タスクにおける負の副作用を自動的に回避する。
関連論文リスト
- SkiLD: Unsupervised Skill Discovery Guided by Factor Interactions [48.003320766433966]
この研究は、ローカル依存(スキルド)からのスキル発見を紹介します。
Skildは、環境内の異なる相互作用を誘発するスキルの習得を明示的に促進する、新しいスキル学習の目標を開発する。
本研究では,現実的なシミュレートされた家庭用ロボットドメインを含む,長期にわたる不利な報酬課題を伴う複数の領域におけるスキルドの評価を行った。
論文 参考訳(メタデータ) (2024-10-24T04:01:59Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。