論文の概要: Multi-Actor Multi-Critic Deep Deterministic Reinforcement Learning with a Novel Q-Ensemble Method
- arxiv url: http://arxiv.org/abs/2510.01083v1
- Date: Wed, 01 Oct 2025 16:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.667853
- Title: Multi-Actor Multi-Critic Deep Deterministic Reinforcement Learning with a Novel Q-Ensemble Method
- Title(参考訳): 新規Q-Ensemble法によるマルチアクター深部決定性強化学習
- Authors: Andy Wu, Chun-Cheng Lin, Rung-Tzuo Liaw, Yuehua Huang, Chihjung Kuo, Chia Tong Weng,
- Abstract要約: 本研究では,新しいマルチアクタ・マルチクリティック(MAMC)深部決定性強化学習法を提案する。
提案手法は,探索のための非支配的ソートに基づくアクターの選択を含む3つの特徴を持つ。
実験の結果,提案手法は最先端のDeep Deterministic based reinforcement learning法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.6739285010690403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has gathered much attention in recent years due to its rapid development and rich applications, especially on control systems and robotics. When tackling real-world applications with reinforcement learning method, the corresponded Markov decision process may have huge discrete or even continuous state/action space. Deep reinforcement learning has been studied for handling these issues through deep learning for years, and one promising branch is the actor-critic architecture. Many past studies leveraged multiple critics to enhance the accuracy of evaluation of a policy for addressing the overestimation and underestimation issues. However, few studies have considered the architecture with multiple actors together with multiple critics. This study proposes a novel multi-actor multi-critic (MAMC) deep deterministic reinforcement learning method. The proposed method has three main features, including selection of actors based on non-dominated sorting for exploration with respect to skill and creativity factors, evaluation for actors and critics using a quantile-based ensemble strategy, and exploiting actors with best skill factor. Theoretical analysis proves the learning stability and bounded estimation bias for the MAMC. The present study examines the performance on a well-known reinforcement learning benchmark MuJoCo. Experimental results show that the proposed framework outperforms state-of-the-art deep deterministic based reinforcement learning methods. Experimental analysis also indicates the proposed components are effective. Empirical analysis further investigates the validity of the proposed method, and shows its benefit on complicated problems. The source code can be found at https://github.com/AndyWu101/MAMC.
- Abstract(参考訳): 強化学習は、その急速な開発とリッチな応用、特に制御システムやロボット工学において、近年多くの注目を集めている。
実世界のアプリケーションに強化学習法で対処する場合、対応したマルコフ決定過程は、巨大な離散的あるいは連続的な状態/作用空間を持つ。
深い強化学習は、長年にわたって深層学習を通してこれらの問題に対処するために研究されてきた。
過去の多くの研究は、過大評価と過小評価の問題に対処する政策の評価の精度を高めるために、複数の批評家を利用した。
しかし、複数の批評家とともに複数のアクターによるアーキテクチャを考える研究はほとんどない。
本研究では,新しいマルチアクタ・マルチクリティック(MAMC)深部決定性強化学習法を提案する。
提案手法は,スキル・クリエイティビティ・ファクターに対する探索のための非支配的なソートに基づくアクターの選択,定量的なアンサンブル・ストラテジーを用いたアクターと批評家の評価,最高のスキル・ファクターを用いたアクターの活用という3つの主要な特徴を有する。
理論的解析は、MAMCの学習安定性と有界推定バイアスを証明している。
本研究では,よく知られた強化学習ベンチマーク MuJoCo の性能について検討する。
実験の結果,提案手法は最先端のDeep Deterministic based reinforcement learning法よりも優れていた。
また, 実験結果から, 提案した成分が有効であることが示唆された。
実験分析により,提案手法の有効性をさらに検証し,複雑な問題に対する利点を示す。
ソースコードはhttps://github.com/AndyWu101/MAMCで確認できる。
関連論文リスト
- More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - Multi-granular Training Strategies for Robust Multi-hop Reasoning Over Noisy and Heterogeneous Knowledge Sources [0.0]
マルチソースマルチホップ質問応答(QA)は自然言語処理における課題である。
既存の手法は、しばしばカスケードエラー、知識衝突の処理が不十分なこと、計算の非効率さに悩まされる。
パラメトリックおよび検索された知識を動的に融合する適応多元的知識指向推論(AMKOR)を提案する。
論文 参考訳(メタデータ) (2025-02-09T16:06:43Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Multivariate Time Series Anomaly Detection: Fancy Algorithms and Flawed
Evaluation Methodology [2.043517674271996]
本稿では、MVTS異常検出の文脈において、正常によいプロトコルが弱点を持つ可能性について論じる。
本稿では,PCA(Principal Components Analysis)に基づくシンプルな,かつ難しいベースラインを提案する。このベースラインは,最近のDeep Learning(DL)ベースのアプローチにおいて,一般的なベンチマークデータセットよりも驚くほど優れています。
論文 参考訳(メタデータ) (2023-08-24T20:24:12Z) - A Comprehensive Study on Robustness of Image Classification Models:
Benchmarking and Rethinking [54.89987482509155]
ディープニューラルネットワークのロバスト性は、通常、敵の例、共通の腐敗、分散シフトに欠けている。
画像分類タスクにおいてtextbfARES-Bench と呼ばれる総合的なベンチマークロバスト性を確立する。
それに応じてトレーニング設定を設計することにより、新しい最先端の対人ロバスト性を実現する。
論文 参考訳(メタデータ) (2023-02-28T04:26:20Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。