論文の概要: Overcoming Deceptiveness in Fitness Optimization with Unsupervised Quality-Diversity
- arxiv url: http://arxiv.org/abs/2504.01915v1
- Date: Wed, 02 Apr 2025 17:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:09.080739
- Title: Overcoming Deceptiveness in Fitness Optimization with Unsupervised Quality-Diversity
- Title(参考訳): 教師なし品質多様性を考慮した適合度最適化における認識の克服
- Authors: Lisa Coiffard, Paul Templier, Antoine Cully,
- Abstract要約: 政策最適化は、目標あるいは適合度関数に従って制御問題に対する最良の解を求める。
本稿では,教師なしQDアルゴリズムがドメインの専門知識を使わずに,知覚的最適化問題を効率的に解くことを示す。
- 参考スコア(独自算出の注目度): 4.787389127632926
- License:
- Abstract: Policy optimization seeks the best solution to a control problem according to an objective or fitness function, serving as a fundamental field of engineering and research with applications in robotics. Traditional optimization methods like reinforcement learning and evolutionary algorithms struggle with deceptive fitness landscapes, where following immediate improvements leads to suboptimal solutions. Quality-diversity (QD) algorithms offer a promising approach by maintaining diverse intermediate solutions as stepping stones for escaping local optima. However, QD algorithms require domain expertise to define hand-crafted features, limiting their applicability where characterizing solution diversity remains unclear. In this paper, we show that unsupervised QD algorithms - specifically the AURORA framework, which learns features from sensory data - efficiently solve deceptive optimization problems without domain expertise. By enhancing AURORA with contrastive learning and periodic extinction events, we propose AURORA-XCon, which outperforms all traditional optimization baselines and matches, in some cases even improving by up to 34%, the best QD baseline with domain-specific hand-crafted features. This work establishes a novel application of unsupervised QD algorithms, shifting their focus from discovering novel solutions toward traditional optimization and expanding their potential to domains where defining feature spaces poses challenges.
- Abstract(参考訳): 政策最適化は、ロボット工学の応用に関する工学と研究の基本的な分野として機能し、目的や適合度関数に従って制御問題の最良の解を求める。
強化学習や進化的アルゴリズムのような従来の最適化手法は、差し迫ったフィットネスの風景に苦しむ。
品質多様性(QD)アルゴリズムは、様々な中間解を局所最適解を逃れるためのステップストーンとして維持することで、有望なアプローチを提供する。
しかし、QDアルゴリズムは、手作りの機能を定義するためにドメインの専門知識を必要とし、ソリューションの多様性を特徴づける適用性を制限する。
本稿では、教師なしQDアルゴリズム(特に感覚データから特徴を学習するAURORAフレームワーク)が、ドメインの専門知識を使わずに、知覚的最適化問題を効率的に解決していることを示す。
対照的な学習と周期的絶滅イベントによるAURORAの強化により,AURORA-XConを提案する。AURORA-XConは従来の最適化ベースラインとマッチを上回り,場合によってはドメイン固有の手作り特徴を持つ最高のQDベースラインである最大34%向上する。
この研究は、教師なしQDアルゴリズムの新たな応用を確立し、新しいソリューションの発見から従来の最適化へと焦点を移し、特徴空間の定義が課題をもたらす領域にその可能性を広げる。
関連論文リスト
- Diversity Optimization for Travelling Salesman Problem via Deep Reinforcement Learning [29.551883712536295]
既存のトラベリングセールスマン問題(TSP)のニューラルメソッドは主に、単一の最適解を見つけることを目的としている。
本稿では,主にエンコーダ-デコーダ構造ポリシを特徴とする,深層強化学習に基づくニューラルソルバを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:08:40Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Quantum Inspired Chaotic Salp Swarm Optimization for Dynamic Optimization [4.44483539967295]
我々は量子コンピューティングの原理を統合するQSSOとして知られるSSAの変種について研究する。
カオス演算子は、変化への対応と個々の検索可能性の向上を保証するために量子コンピューティングで使用される。
約束通り、導入されたQCSSOは、DOPのライバルアルゴリズムとして発見される。
論文 参考訳(メタデータ) (2024-01-21T02:59:37Z) - Don't Bet on Luck Alone: Enhancing Behavioral Reproducibility of
Quality-Diversity Solutions in Uncertain Domains [2.639902239625779]
アーカイブ再現性向上アルゴリズム(ARIA)を紹介する。
ARIAは、アーカイブに存在するソリューションの品質を改善するプラグイン・アンド・プレイのアプローチである。
提案アルゴリズムは,任意のアーカイブの品質とディスクリプタ空間のカバレッジを少なくとも50%向上させることを示す。
論文 参考訳(メタデータ) (2023-04-07T14:45:14Z) - An Effective and Efficient Evolutionary Algorithm for Many-Objective
Optimization [2.5594423685710814]
様々な多目的問題に対処できる効率的な進化的アルゴリズム(E3A)を開発した。
SDEにインスパイアされたE3Aでは,新しい集団維持法が提案されている。
我々は、広範囲な実験を行い、E3Aが11の最先端の多目的進化アルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-31T15:35:46Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - BOP-Elites, a Bayesian Optimisation algorithm for Quality-Diversity
search [0.0]
本稿では,エリートアルゴリズム(BOP-Elites)のベイズ最適化を提案する。
機能領域のユーザ定義領域を‘ニッチ’として考えることで、ニッチ毎に最適なソリューションを見つけることが私たちのタスクになります。
得られたアルゴリズムは、特徴空間におけるニッチに属する探索空間の部分を特定し、ニッチごとに最適な解を見つけるのに非常に効果的である。
論文 参考訳(メタデータ) (2020-05-08T23:49:13Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。