論文の概要: Enhanced POET: Open-Ended Reinforcement Learning through Unbounded
Invention of Learning Challenges and their Solutions
- arxiv url: http://arxiv.org/abs/2003.08536v2
- Date: Mon, 13 Apr 2020 07:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:47:33.821579
- Title: Enhanced POET: Open-Ended Reinforcement Learning through Unbounded
Invention of Learning Challenges and their Solutions
- Title(参考訳): 強化詩人:学習課題の無制限発明とその解決を通した拡張強化学習
- Authors: Rui Wang, Joel Lehman, Aditya Rawal, Jiale Zhi, Yulun Li, Jeff Clune,
Kenneth O. Stanley
- Abstract要約: Paired Open-Ended Trailblazer (POET)は、独自の課題を生成し解決するアルゴリズムである。
POETはアルゴリズム自体の限界のため、その完全な創造可能性を示すことができなかった。
我々は、元のアルゴリズムに2つの新しいイノベーションを導入し、実証的に検証し、また、その潜在能力を解明するために設計された2つの外部イノベーションを紹介します。
- 参考スコア(独自算出の注目度): 20.671903144896742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating open-ended algorithms, which generate their own never-ending stream
of novel and appropriately challenging learning opportunities, could help to
automate and accelerate progress in machine learning. A recent step in this
direction is the Paired Open-Ended Trailblazer (POET), an algorithm that
generates and solves its own challenges, and allows solutions to goal-switch
between challenges to avoid local optima. However, the original POET was unable
to demonstrate its full creative potential because of limitations of the
algorithm itself and because of external issues including a limited problem
space and lack of a universal progress measure. Importantly, both limitations
pose impediments not only for POET, but for the pursuit of open-endedness in
general. Here we introduce and empirically validate two new innovations to the
original algorithm, as well as two external innovations designed to help
elucidate its full potential. Together, these four advances enable the most
open-ended algorithmic demonstration to date. The algorithmic innovations are
(1) a domain-general measure of how meaningfully novel new challenges are,
enabling the system to potentially create and solve interesting challenges
endlessly, and (2) an efficient heuristic for determining when agents should
goal-switch from one problem to another (helping open-ended search better
scale). Outside the algorithm itself, to enable a more definitive demonstration
of open-endedness, we introduce (3) a novel, more flexible way to encode
environmental challenges, and (4) a generic measure of the extent to which a
system continues to exhibit open-ended innovation. Enhanced POET produces a
diverse range of sophisticated behaviors that solve a wide range of
environmental challenges, many of which cannot be solved through other means.
- Abstract(参考訳): オープンエンドのアルゴリズムを作ることは、機械学習の進歩を自動化し、加速させるのに役立つだろう。
この方向の最近のステップは、Paired Open-Ended Trailblazer (POET) である。これは、独自の課題を生成し、解決するアルゴリズムであり、ローカルな最適化を避けるために、課題間でゴール・スウィッチのソリューションを可能にする。
しかし、オリジナルのPOETはアルゴリズム自体の限界や、限られた問題空間や普遍的な進歩尺度の欠如といった外部問題のために、その完全な創造可能性を示すことができなかった。
重要なことに、どちらの制限もPOETだけでなく、一般に開放性追求の障害となる。
ここでは、元のアルゴリズムに2つの新しいイノベーションと、その潜在能力を解明するために設計された2つの外部イノベーションを紹介し、実証的に検証する。
これら4つの進歩は、これまでで最もオープンなアルゴリズム実証を可能にする。
アルゴリズム上の革新は、(1)新しい課題がどれほど有意義に新しいものになり得るかというドメイン一般の尺度、(2)エージェントがいつある問題から別の問題にゴールを切り替えるべきかを決定するための効率的なヒューリスティック(オープンエンド検索より良いスケールの助け)である。
アルゴリズムの外部では, オープン・リミットネスのより明確な実証を可能にするために, (3) 環境課題をエンコードする新しい, より柔軟な方法, (4) システムがオープン・リミテッド・イノベーションを継続する範囲の汎用的な尺度を紹介する。
強化されたPOETは多様な高度な行動を生み出し、様々な環境課題を解決するが、その多くは他の方法では解決できない。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - Open-world Machine Learning: A Review and New Outlooks [83.6401132743407]
本稿では,新たなオープンワールド機械学習パラダイムを包括的に紹介することを目的としている。
研究者がそれぞれの分野でより強力なAIシステムを構築するのを支援し、人工知能の開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-03-04T06:25:26Z) - Introduction to Algogens [0.0]
Algogensは、ジェネレーティブAIと従来のアルゴリズムの統合を約束する。
本書では、アルゴゲンの基礎、その開発、応用、および利点について論じている。
アルゴゲンが直面している展望と障害物をバランスよく見ることができます。
論文 参考訳(メタデータ) (2024-03-03T07:52:10Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary
Search under Trajectory-based Guidance [2.4476800587391234]
本稿では,最適化の解関数をポリシーとして利用して,逐次的意思決定のための行動を計算する手法を提案する。
我々のエージェントは2021年のCityLearn Challengeでトップにランクインし、ほぼすべての指標において優れたパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2022-12-04T22:18:38Z) - UNIFY: a Unified Policy Designing Framework for Solving Constrained
Optimization Problems with Machine Learning [18.183339583346005]
複雑な意思決定問題に対するソリューションポリシーを設計するための統一的な枠組みを提案する。
我々のアプローチは、制約のないMLモデルとCO問題という2つの段階におけるポリシーの巧妙な分解に依存している。
本手法の有効性を,エネルギー管理システムと包括的要件付き集合マルチカバーの2つの実践的問題に対して示す。
論文 参考訳(メタデータ) (2022-10-25T14:09:24Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Open Questions in Creating Safe Open-ended AI: Tensions Between Control
and Creativity [15.60659580411643]
オープンエンド進化と人工生命は、オープンエンドAIの理解に大きく貢献している。
本稿では、オープンエンドAIには、オープンエンドシステムの創造性を生産的かつ予測的に制御できるかどうかという、独自の安全性上の課題がある、と論じる。
論文 参考訳(メタデータ) (2020-06-12T22:28:09Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。