論文の概要: AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization
- arxiv url: http://arxiv.org/abs/2506.05634v1
- Date: Thu, 05 Jun 2025 23:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.2645
- Title: AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization
- Title(参考訳): AutoQD:品質と多様性の最適化による振る舞いの自動発見
- Authors: Saeed Hedayatian, Stefanos Nikolaidis,
- Abstract要約: QD(Quality-Diversity)アルゴリズムは、多種多様な高性能なソリューションの発見に顕著な成功を収めている。
しかし、それらは、事前に定義された多様性の概念への探索を制約する手作りの行動記述子に大きく依存している。
本稿では,マルコフ決定プロセスに政策の占有度を埋め込むことにより,行動記述子を自動的に生成する理論的基礎的アプローチを提案する。
- 参考スコア(独自算出の注目度): 6.781039677915376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality-Diversity (QD) algorithms have shown remarkable success in discovering diverse, high-performing solutions, but rely heavily on hand-crafted behavioral descriptors that constrain exploration to predefined notions of diversity. Leveraging the equivalence between policies and occupancy measures, we present a theoretically grounded approach to automatically generate behavioral descriptors by embedding the occupancy measures of policies in Markov Decision Processes. Our method, AutoQD, leverages random Fourier features to approximate the Maximum Mean Discrepancy (MMD) between policy occupancy measures, creating embeddings whose distances reflect meaningful behavioral differences. A low-dimensional projection of these embeddings that captures the most behaviorally significant dimensions is then used as behavioral descriptors for off-the-shelf QD methods. We prove that our embeddings converge to true MMD distances between occupancy measures as the number of sampled trajectories and embedding dimensions increase. Through experiments in multiple continuous control tasks we demonstrate AutoQD's ability in discovering diverse policies without predefined behavioral descriptors, presenting a well-motivated alternative to prior methods in unsupervised Reinforcement Learning and QD optimization. Our approach opens new possibilities for open-ended learning and automated behavior discovery in sequential decision making settings without requiring domain-specific knowledge.
- Abstract(参考訳): QD(Quality-Diversity)アルゴリズムは、多様でハイパフォーマンスなソリューションを発見するのに顕著な成功を示しているが、事前に定義された多様性の概念に対する探索を制約する手作りの行動記述子に大きく依存している。
政策と占領対策の等価性を活用して,マルコフ決定プロセスに政策の占有度を埋め込むことにより,行動記述子を自動的に生成する理論的根拠を持ったアプローチを提案する。
我々の手法であるAutoQDは、ランダムなフーリエ特徴を利用して、政策占有率の最大平均差(MMD)を近似し、距離が意味のある行動差を反映した埋め込みを生成する。
これらの埋め込みの低次元射影は、最も行動的に重要な次元を捉え、既成のQD法のための行動記述子として使用される。
我々は, サンプル軌道数や埋め込み次元が増加するにつれて, 占有率の真のMDD距離に埋め込みが収束することが証明された。
複数の継続的制御タスクの実験を通じて、AutoQDは、事前に定義された振る舞い記述子なしで多様なポリシーを発見する能力を示し、教師なし強化学習とQD最適化において、事前の方法に代わる動機付けのよい代替手段を示す。
提案手法は、ドメイン固有の知識を必要とせず、シーケンシャルな意思決定設定において、オープンエンド学習と自動行動発見の新たな可能性を開く。
関連論文リスト
- Offline Learning of Controllable Diverse Behaviors [19.0544729496907]
イミテーションラーニング(IL)技術は、特定のタスクで人間の行動を再現することを目的としている。
時間的一貫性と制御性に基づく新しい手法を提案する。
我々は,タスクや環境の多様さに対して,最先端の手法との比較を行った。
論文 参考訳(メタデータ) (2025-04-25T08:16:56Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Quality-Diversity Meta-Evolution: customising behaviour spaces to a
meta-objective [1.0152838128195467]
品質多様性(QD)アルゴリズムは、振る舞いの多様性と高いパフォーマンスのソリューションを進化させる。
本稿では,QD-Metaにおける機能評価と多脚ロボットの動作評価に関する実証的研究を行う。
論文 参考訳(メタデータ) (2021-09-08T20:27:24Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Behaviorally Diverse Traffic Simulation via Reinforcement Learning [16.99423598448411]
本稿では,自律運転エージェントのための簡易なポリシー生成アルゴリズムを提案する。
提案アルゴリズムは,深層強化学習の表現能力と探索能力を活用することで,多様性と運転能力のバランスをとる。
本手法の有効性を,いくつかの挑戦的な交差点シーンにおいて実験的に示す。
論文 参考訳(メタデータ) (2020-11-11T12:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。