論文の概要: K-Myriad: Jump-starting reinforcement learning with unsupervised parallel agents
- arxiv url: http://arxiv.org/abs/2601.18580v1
- Date: Mon, 26 Jan 2026 15:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.896678
- Title: K-Myriad: Jump-starting reinforcement learning with unsupervised parallel agents
- Title(参考訳): K-Myriad: 教師なし並列エージェントによるジャンプ開始強化学習
- Authors: Vincenzo De Paola, Mirco Mutti, Riccardo Zamboni, Marcello Restelli,
- Abstract要約: 強化学習における並列化は、通常、複数の労働者が同一のサンプリング分布から経験を収集する単一のポリシーのトレーニングを高速化するために使用される。
並列ポリシの集団によって引き起こされる集合状態のエントロピーを最大化する,スケーラブルで教師なしなK-Myriadを提案する。
- 参考スコア(独自算出の注目度): 45.34282087299665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallelization in Reinforcement Learning is typically employed to speed up the training of a single policy, where multiple workers collect experience from an identical sampling distribution. This common design limits the potential of parallelization by neglecting the advantages of diverse exploration strategies. We propose K-Myriad, a scalable and unsupervised method that maximizes the collective state entropy induced by a population of parallel policies. By cultivating a portfolio of specialized exploration strategies, K-Myriad provides a robust initialization for Reinforcement Learning, leading to both higher training efficiency and the discovery of heterogeneous solutions. Experiments on high-dimensional continuous control tasks, with large-scale parallelization, demonstrate that K-Myriad can learn a broad set of distinct policies, highlighting its effectiveness for collective exploration and paving the way towards novel parallelization strategies.
- Abstract(参考訳): 強化学習における並列化は、通常、複数の労働者が同一のサンプリング分布から経験を収集する単一のポリシーのトレーニングを高速化するために使用される。
この共通設計は、多様な探索戦略の利点を無視して並列化の可能性を制限する。
並列ポリシの集団によって引き起こされる集合状態のエントロピーを最大化する,スケーラブルで教師なしなK-Myriadを提案する。
K-Myriadは、専門的な探索戦略のポートフォリオを育成することで、強化学習の堅牢な初期化を提供し、より高い訓練効率と異種解の発見をもたらす。
大規模並列化を伴う高次元連続制御タスクの実験は、K-Myriadが様々な異なるポリシーを学習できることを示し、集団探索の有効性を強調し、新しい並列化戦略への道を開いた。
関連論文リスト
- Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - One Policy is Enough: Parallel Exploration with a Single Policy is
Minimax Optimal for Reward-Free Reinforcement Learning [20.57852376676345]
すべてのエージェントの探索を単一のポリシーでガイドすることは、ほぼ直線的なスピードアップを得るのに十分であることを示す。
この単純な手順は、リニアMDPと2プレーヤゼロサムMGの両方の報酬のない設定において、対数的要素に最適化される。
論文 参考訳(メタデータ) (2022-05-31T15:41:55Z) - Hybrid Dynamic Contrast and Probability Distillation for Unsupervised
Person Re-Id [109.1730454118532]
非監督的人物再識別(Re-Id)は、リードワールドビデオ監視システムにおける実践的応用により注目されている。
本稿では,ハイブリッド動的クラスタコントラストと確率蒸留アルゴリズムを提案する。
教師なしRe-Id問題を局所-言語的ダイナミックコントラスト学習と自己教師付き確率蒸留の枠組みに統合する。
論文 参考訳(メタデータ) (2021-09-29T02:56:45Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。