論文の概要: Guiding Skill Discovery with Foundation Models
- arxiv url: http://arxiv.org/abs/2510.23167v1
- Date: Mon, 27 Oct 2025 09:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.515109
- Title: Guiding Skill Discovery with Foundation Models
- Title(参考訳): 基礎モデルによるスキル発見のガイド
- Authors: Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat, Vincent François-Lavet, Edward S. Hu,
- Abstract要約: 既存のスキル発見方法は、人間の好みを考慮せずに、スキルの多様性を最大化することのみに焦点を当てている。
本稿では,人間の意図をスキル発見に取り入れたFoG(Foundation Model Guided)スキル発見手法を提案する。
FoGは、フリップやローリングなどの望ましくない振る舞いを排除し、状態ベースのタスクとピクセルベースのタスクの両方で有害な領域を避けるために、うまく学習する。
- 参考スコア(独自算出の注目度): 8.41850245020636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning diverse skills without hand-crafted reward functions could accelerate reinforcement learning in downstream tasks. However, existing skill discovery methods focus solely on maximizing the diversity of skills without considering human preferences, which leads to undesirable behaviors and possibly dangerous skills. For instance, a cheetah robot trained using previous methods learns to roll in all directions to maximize skill diversity, whereas we would prefer it to run without flipping or entering hazardous areas. In this work, we propose a Foundation model Guided (FoG) skill discovery method, which incorporates human intentions into skill discovery through foundation models. Specifically, FoG extracts a score function from foundation models to evaluate states based on human intentions, assigning higher values to desirable states and lower to undesirable ones. These scores are then used to re-weight the rewards of skill discovery algorithms. By optimizing the re-weighted skill discovery rewards, FoG successfully learns to eliminate undesirable behaviors, such as flipping or rolling, and to avoid hazardous areas in both state-based and pixel-based tasks. Interestingly, we show that FoG can discover skills involving behaviors that are difficult to define. Interactive visualisations are available from https://sites.google.com/view/submission-fog.
- Abstract(参考訳): 手作りの報酬関数なしで多様なスキルを学ぶことは、下流のタスクにおける強化学習を加速させる可能性がある。
しかし、既存のスキル発見手法は、人間の好みを考慮せずにスキルの多様性を最大化することだけに重点を置いているため、望ましくない振る舞いや危険なスキルにつながる可能性がある。
例えば、従来の方法で訓練されたチーターロボットは、スキルの多様性を最大化するために、あらゆる方向を回転させることを学びます。
本研究では,ファンデーションモデルによるスキル発見に人間の意図を取り入れた,ファンデーションモデルガイド(FoG)スキル発見手法を提案する。
具体的には、FoGはファンデーションモデルからスコア関数を抽出し、人間の意図に基づく状態の評価を行い、より高い値を望ましい状態に割り当て、望ましくない状態まで下げる。
これらのスコアは、スキル発見アルゴリズムの報酬を再重み付けするために使用される。
再重み付けされたスキル発見報酬を最適化することにより、FoGは、フリップやローリングなどの望ましくない振る舞いを排除し、州ベースのタスクとピクセルベースのタスクの両方で有害な領域を避けることができる。
興味深いことに、FoGは定義が難しい行動に関わるスキルを発見することができる。
インタラクティブな視覚化はhttps://sites.google.com/view/submission-fog.comから入手できる。
関連論文リスト
- Efficient Skill Discovery via Regret-Aware Optimization [37.27136009415794]
我々は、スキル生成とポリシー学習のミニマックスゲームとしてスキル発見の枠組みを定めている。
本稿では,時間的表現学習に基づく後悔認識手法を提案する。
提案手法は高次元環境において15%ゼロショット改善を実現する。
論文 参考訳(メタデータ) (2025-06-26T06:45:59Z) - Human-Aligned Skill Discovery: Balancing Behaviour Exploration and Alignment [14.948610521764415]
我々は、より安全でより整合したスキルを発見するために、ヒューマンアライメントスキル発見(HaSD)を提案する。
HaSDはスキルの多様性と人間の価値との整合性を同時に最適化する。
2次元ナビゲーションとセーフティガイムナシウム環境の両方で有効性を示す。
論文 参考訳(メタデータ) (2025-01-29T06:14:27Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Behavior Contrastive Learning for Unsupervised Skill Discovery [75.6190748711826]
本研究では,行動間のコントラスト学習による非教師なしスキル発見手法を提案する。
軽度の仮定では、同じスキルに基づいて異なる行動間のMIを最大化する。
提案手法は、状態のエントロピーを暗黙的に増加させ、より良い状態カバレッジを得る。
論文 参考訳(メタデータ) (2023-05-08T06:02:11Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。