論文の概要: Distributional Value Estimation Without Target Networks for Robust Quality-Diversity
- arxiv url: http://arxiv.org/abs/2604.20381v1
- Date: Wed, 22 Apr 2026 09:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.068001
- Title: Distributional Value Estimation Without Target Networks for Robust Quality-Diversity
- Title(参考訳): ロバストな品質多様性のためのターゲットネットワークのない分布値推定
- Authors: Behrad Koohy, Jamie Bayne,
- Abstract要約: 品質多様性(QD)アルゴリズムは多様なスキルのレパートリーを発見するのに優れているが、サンプル効率の低下によって妨げられている。
強化学習(RL)の最近の進歩は,高更新データ(UTD)比がアクター・クリティカル・ラーニングを加速することを示している。
本稿では,QDHUACを提案する。QDHUACは,高密度かつ低分散勾配信号を提供するサンプル効率,ターゲットフリー,分散QD-RLアルゴリズムである。
- 参考スコア(独自算出の注目度): 0.5801044612920815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quality-Diversity (QD) algorithms excel at discovering diverse repertoires of skills, but are hindered by poor sample efficiency and often require tens of millions of environment steps to solve complex locomotion tasks. Recent advances in Reinforcement Learning (RL) have shown that high Update-to-Data (UTD) ratios accelerate Actor-Critic learning. While effective, standard high-UTD algorithms typically utilise target networks to stabilise training. This requirement introduces a significant computational bottleneck, rendering them impractical for resource-intensive Quality-Diversity (QD) tasks where sample efficiency and rapid population adaptation are critical. In this paper, we introduce QDHUAC, a sample-efficient, target-free and distributional QD-RL algorithm that provides dense and low-variance gradient signals, which enables high-UTD training for Dominated Novelty Search whilst requiring an order of magnitude fewer environment steps. We demonstrate that our method enables stable training at high UTD ratios, achieving competitive coverage and fitness on high-dimensional Brax environments with an order of magnitude fewer samples than baselines. Our results suggest that combining target-free distributional critics with dominance-based selection is a key enabler for the next generation of sample-efficient evolutionary RL algorithms.
- Abstract(参考訳): 品質多様性(QD)アルゴリズムは多様なスキルのレパートリーを発見するのに優れていますが、サンプル効率の低下によって妨げられ、複雑な移動課題を解決するために数千万の環境ステップが必要になります。
強化学習(RL)の最近の進歩は,高更新データ(UTD)比がアクター・クリティカル・ラーニングを加速することを示している。
標準的な高UTDアルゴリズムは、トレーニングを安定化するためにターゲットネットワークを利用するのが一般的である。
この要件は、資源集約型品質多様性(QD)タスクにおいて、サンプル効率と急激な人口適応が重要である場合に、それらが実用的でない、という重大な計算ボトルネックをもたらす。
本稿では,QDHUACを提案する。QDHUACは,高密度かつ低ばらつきの勾配信号を提供するQD-RLアルゴリズムである。
提案手法は,高次元ブラックス環境における高いUTD比での安定トレーニングを可能にし,高次元ブラックス環境における競争力と適合性を,ベースラインよりも桁違いに少ない精度で達成できることを実証する。
この結果から,ターゲットフリーな分布批判と支配に基づく選択を組み合わせることが,次世代のサンプル効率進化的RLアルゴリズムの鍵となる可能性が示唆された。
関連論文リスト
- Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。
相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。
実験の結果,MARL法は標準単エージェントRLよりも30~300倍効率が向上した。
論文 参考訳(メタデータ) (2025-07-22T05:51:07Z) - RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs [0.0]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための強力なフレームワークとして登場した。
彼らのパフォーマンスは、トレーニングポイントの選択に使われる戦略に大きく依存しています。
RL-PINN(RL-PINN)は,1ラウンドのサンプリングだけで効率的なトレーニングを可能にする強化学習駆動型適応サンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-04-17T13:50:55Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。