論文の概要: Parental Guidance: Efficient Lifelong Learning through Evolutionary Distillation
- arxiv url: http://arxiv.org/abs/2503.18531v1
- Date: Mon, 24 Mar 2025 10:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:26.359521
- Title: Parental Guidance: Efficient Lifelong Learning through Evolutionary Distillation
- Title(参考訳): 親の指導:進化的蒸留による効率的な生涯学習
- Authors: Octi Zhang, Quanquan Peng, Rosario Scalise, Bryon Boots,
- Abstract要約: 本研究では, 自然種再現, 多様性のバランス, 特殊化といった, 再生モジュールを含むフレームワークを提案する。
RL、模倣学習(IL)、進化的エージェント・テランのカリキュラムを統合することで、複雑なタスクを通じてエージェントを継続的に進化させる。
最初の実験では,この手法が探索効率を向上し,オープンエンド学習を支援することを示した。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License:
- Abstract: Developing robotic agents that can perform well in diverse environments while showing a variety of behaviors is a key challenge in AI and robotics. Traditional reinforcement learning (RL) methods often create agents that specialize in narrow tasks, limiting their adaptability and diversity. To overcome this, we propose a preliminary, evolution-inspired framework that includes a reproduction module, similar to natural species reproduction, balancing diversity and specialization. By integrating RL, imitation learning (IL), and a coevolutionary agent-terrain curriculum, our system evolves agents continuously through complex tasks. This approach promotes adaptability, inheritance of useful traits, and continual learning. Agents not only refine inherited skills but also surpass their predecessors. Our initial experiments show that this method improves exploration efficiency and supports open-ended learning, offering a scalable solution where sparse reward coupled with diverse terrain environments induces a multi-task setting.
- Abstract(参考訳): 多様な振る舞いを示しながら、多様な環境でうまく機能するロボットエージェントを開発することは、AIやロボット工学における重要な課題である。
伝統的な強化学習(RL)法は、狭いタスクに特化して適応性と多様性を制限するエージェントを作成することが多い。
これを解決するために,本研究では,自然種再現,多様性のバランス,特殊化といった再生モジュールを含む予備的,進化にインスパイアされたフレームワークを提案する。
RL、模倣学習(IL)、進化的エージェント・テランのカリキュラムを統合することで、複雑なタスクを通じてエージェントを継続的に進化させる。
このアプローチは適応性、有用な特性の継承、継続的な学習を促進する。
エージェントは継承したスキルを洗練するだけでなく、前任者を追い越す。
最初の実験では、この手法が探索効率を改善し、オープンエンド学習をサポートすることを示し、多様な地形環境とスパース報酬が組み合わさってマルチタスク環境を誘導するスケーラブルなソリューションを提供する。
関連論文リスト
- Evolution with Opponent-Learning Awareness [10.689403855269704]
学習エージェントの多種多様な集団が通常のゲームでどのように進化するかを示す。
進化シミュレーションに適した対向学習意識の高速で並列化可能な実装を導出する。
我々は,Hawk-Dove,Stag-Hunt,Rock-Paper-Scissorsの古典ゲームにおいて,20万エージェントのシミュレーションでアプローチを実証した。
論文 参考訳(メタデータ) (2024-10-22T22:49:04Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Evolving Reservoirs for Meta Reinforcement Learning [1.6874375111244329]
本稿では,そのようなプロセスを実現する機構を研究するための計算モデルを提案する。
進化のスケールでは、リカレントニューラルネットワークの族である貯水池を進化させます。
我々は、強化学習(RL)を通じた行動政策の学習を容易にするために、これらの進化した貯水池を利用する。
以上の結果から,貯水池の進化は多様な課題の学習を改善することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T16:11:48Z) - DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning [8.280943341629161]
マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
論文 参考訳(メタデータ) (2023-05-03T13:58:13Z) - Evolving Curricula with Regret-Based Environment Design [37.70275057075986]
我々は、原則化された後悔に基づくカリキュラムで進化の力を活用することを提案する。
我々の手法はエージェントの能力の最前線で常にレベルを発生させることを試みており、その結果、単純から始まるがますます複雑になるキュリキュラが生まれる。
論文 参考訳(メタデータ) (2022-03-02T18:40:00Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。