Fugu-MT 論文翻訳(概要): CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

論文の概要: CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

arxiv url: http://arxiv.org/abs/2602.10085v2
Date: Wed, 11 Feb 2026 09:46:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-12 15:03:20.257617
Title: CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs
Title（参考訳）: CODE-SHARP: 階層的リワードプログラムとしての継続的オープンエンドの発見とスキルの進化
Authors: Richard Bornemann, Pierluigi Vito Amadori, Antoine Cully,
Abstract要約: 階層的リワードプログラム(CODE-SHARP)として継続的オープンエンド発見とスキルの進化を紹介する。発見したスキルが生み出す報酬に特化して訓練された目標条件エージェントが,ますます長い水平目標の解決を学習することを示す。高レベルのFMベースのプランナーによって構成されたこの技術により、単一の目標条件付きエージェントが複雑な長期的タスクを解決し、事前訓練されたエージェントとタスク固有の専門家ポリシーを平均134$%以上のパフォーマンスで達成できる。
参考スコア（独自算出の注目度）: 8.81909423168606
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Developing agents capable of open-endedly discovering and learning novel skills is a grand challenge in Artificial Intelligence. While reinforcement learning offers a powerful framework for training agents to master complex skills, it typically relies on hand-designed reward functions. This is infeasible for open-ended skill discovery, where the set of meaningful skills is not known a priori. While recent methods have shown promising results towards automating reward function design, they remain limited to refining rewards for pre-defined tasks. To address this limitation, we introduce Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs (CODE-SHARP), a novel framework leveraging Foundation Models (FM) to open-endedly expand and refine a hierarchical skill archive, structured as a directed graph of executable reward functions in code. We show that a goal-conditioned agent trained exclusively on the rewards generated by the discovered SHARP skills learns to solve increasingly long-horizon goals in the Craftax environment. When composed by a high-level FM-based planner, the discovered skills enable a single goal-conditioned agent to solve complex, long-horizon tasks, outperforming both pretrained agents and task-specific expert policies by over $134$% on average. We will open-source our code and provide additional videos at https://sites.google.com/view/code-sharp/homepage.
Abstract（参考訳）: 新たなスキルをオープンに発見し、学習できるエージェントを開発することは、人工知能の大きな課題である。強化学習は複雑なスキルを習得するための訓練エージェントのための強力なフレームワークを提供するが、通常は手作りの報酬関数に依存している。これは、有意義なスキルセットが事前に知られていないような、オープンエンドのスキル発見には有効ではない。近年の手法では、報酬関数設計を自動化するための有望な結果が示されているが、事前に定義されたタスクに対する報酬の精算に限られている。この制限に対処するために、コード内の実行可能報酬関数の有向グラフとして構造化された階層的スキルアーカイブをオープンに拡張・洗練するために、ファンデーションモデル(FM)を活用した新しいフレームワークである、継続的オープンエンド・ディスカバリ・アンド・エボリューション・オブ・スキルズ(CODE-SHARP)を紹介します。本研究では,SHARPスキルが生み出す報酬を専門に訓練した目標条件エージェントが,Craftax環境における長期的目標の解決を学習することを示す。高レベルのFMベースのプランナーによって構成されると、発見されたスキルは、単一の目標条件のエージェントが複雑な長期のタスクを解決し、事前訓練されたエージェントとタスク固有の専門家ポリシーの両方を平均134$%以上のパフォーマンスで上回る。コードをオープンソース化し、https://sites.google.com/view/code-sharp/homepage.comで追加のビデオを提供します。

関連論文リスト

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。 ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2026-02-09T03:17:17Z)
Dreaming in Code for Curriculum Learning in Open-Ended Worlds [11.954246951892905]
Dreaming in Code (DiCode)は、基礎モデルが環境コードを合成し、能力向上に向けて学習するフレームワークである。 DiCode in Craftaxは、リッチなメカニクスとロングホライゾンの進行を特徴とする、挑戦的なオープンエンドベンチマークです。本研究は,プログラムレベルの環境設計がカリキュラム管理の実践的なメカニズムを提供し,オープンエンドの世界におけるコンピテンスギャップを埋める中間環境の構築を可能にすることを示唆する。
論文参考訳（メタデータ） (2026-02-09T01:24:40Z)
Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。残る課題は、さまざまな基本的なスキルを取得することです。 LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-05-23T19:44:03Z)
Eureka: Human-Level Reward Design via Coding Large Language Models [121.91007140014982]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。 Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文参考訳（メタデータ） (2023-10-19T17:31:01Z)
Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance [66.615355754712]
BOSSが"スキルブートストラップ"を実行して新しいタスクを達成 LLM誘導型ブートストラップ法で訓練されたエージェントは,実生活環境における実測実験により,ナイーブなブートストラップ法で訓練されたエージェントよりも優れていた。
論文参考訳（メタデータ） (2023-10-16T02:43:47Z)
Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。 IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文参考訳（メタデータ） (2022-10-14T00:04:49Z)
Open-Ended Reinforcement Learning with Neural Reward Functions [2.4366811507669115]
高次元ロボット環境では、ハーフチェエタのフロントフリップやヒューマノイドの片足ランニングなど、幅広い興味深いスキルを学びます。ピクセルベースのMontezumaのRevenge環境では、我々の手法は最小限の変更でも機能し、アイテムとのインタラクションや多様な場所の訪問に関わる複雑なスキルを学ぶ。
論文参考訳（メタデータ） (2022-02-16T15:55:22Z)
Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。 LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文参考訳（メタデータ） (2022-02-02T08:29:04Z)
Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:29:32Z)
ELSIM: End-to-end learning of reusable skills through intrinsic motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文参考訳（メタデータ） (2020-06-23T11:20:46Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。