論文の概要: UACER: An Uncertainty-Aware Critic Ensemble Framework for Robust Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.10492v1
- Date: Thu, 11 Dec 2025 10:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.314788
- Title: UACER: An Uncertainty-Aware Critic Ensemble Framework for Robust Adversarial Reinforcement Learning
- Title(参考訳): UACER:ロバスト反転強化学習のための不確実な批判アンサンブルフレームワーク
- Authors: Jiaxi Wu, Tiantian Zhang, Yuxing Wang, Yongzhe Chang, Xueqian Wang,
- Abstract要約: 頑健な対人強化学習(UACER)のための新しいアプローチである不確実性に配慮した批判アンサンブルを提案する。
本稿では,頑健な対人強化学習(UACER)のための新しいアプローチ,不確実性に配慮した批判アンサンブルを提案する。
- 参考スコア(独自算出の注目度): 15.028168889991795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust adversarial reinforcement learning has emerged as an effective paradigm for training agents to handle uncertain disturbance in real environments, with critical applications in sequential decision-making domains such as autonomous driving and robotic control. Within this paradigm, agent training is typically formulated as a zero-sum Markov game between a protagonist and an adversary to enhance policy robustness. However, the trainable nature of the adversary inevitably induces non-stationarity in the learning dynamics, leading to exacerbated training instability and convergence difficulties, particularly in high-dimensional complex environments. In this paper, we propose a novel approach, Uncertainty-Aware Critic Ensemble for robust adversarial Reinforcement learning (UACER), which consists of two strategies: 1) Diversified critic ensemble: a diverse set of K critic networks is exploited in parallel to stabilize Q-value estimation rather than conventional single-critic architectures for both variance reduction and robustness enhancement. 2) Time-varying Decay Uncertainty (TDU) mechanism: advancing beyond simple linear combinations, we develop a variance-derived Q-value aggregation strategy that explicitly incorporates epistemic uncertainty to dynamically regulate the exploration-exploitation trade-off while simultaneously stabilizing the training process. Comprehensive experiments across several MuJoCo control problems validate the superior effectiveness of UACER, outperforming state-of-the-art methods in terms of overall performance, stability, and efficiency.
- Abstract(参考訳): ロバスト対逆強化学習は、自律運転やロボット制御といったシーケンシャルな意思決定領域における重要な応用とともに、実環境における不確実な障害に対処する訓練エージェントの効果的なパラダイムとして登場した。
このパラダイムの中では、エージェントトレーニングは典型的には、政策の堅牢性を高めるために、主人公と敵の間のゼロサムマルコフゲームとして定式化される。
しかし、学習力学の非定常性を必然的に引き起こし、特に高次元複雑環境においてトレーニング不安定性と収束困難が悪化する。
本稿では, 頑健な対人強化学習(UACER)のための新しいアプローチ, Uncertainty-Aware Critic Ensembleを提案する。
1) バラエティ批判のアンサンブル: 分散低減とロバストネス向上の両面において、従来の単一批判アーキテクチャよりもQ値推定を安定させるために、多様なK批判ネットワークを並列に活用する。
2) 時間変化による不確実性 (TDU) のメカニズム: 単純な線形結合を超えて, 気腫性不確実性を明示的に含み, 探索・探索トレードオフを動的に制御し, 同時にトレーニングプロセスを安定化させる分散Q値集約戦略を開発する。
いくつかの MuJoCo 制御問題に対する総合的な実験は、UACER の優れた有効性、全体的な性能、安定性、効率の点で最先端の手法より優れていることを証明している。
関連論文リスト
- Uncertainty-Resilient Multimodal Learning via Consistency-Guided Cross-Modal Transfer [0.0]
この論文は、整合性誘導型クロスモーダルトランスファーによる不確実性と弾力性のあるマルチモーダル学習を探求する。
中心となる考え方は、堅牢な表現学習の基盤として、クロスモーダルなセマンティック一貫性を使用することである。
この基礎の上に構築された論文は、セマンティックロバスト性を高め、データ効率を向上し、ノイズや不完全な監視の影響を減らすための戦略を調査する。
論文 参考訳(メタデータ) (2025-11-18T15:26:42Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.320660946946523]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
我々は、明白な批評家と政治上の強化学習を行うことが両立していることを示す。
我々は,政策評価と政策改善の段階において,明らかな不確実性定量化の不可欠な役割から,結果のアルゴリズムであるemphEvidential Proximal Policy Optimization (EPPO) を命名した。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - Improving Domain Generalization in Self-supervised Monocular Depth Estimation via Stabilized Adversarial Training [61.35809887986553]
我々は、SCAT(stabilized Conflict-Optimization Adversarial Training)という、汎用的な敵訓練フレームワークを提案する。
SCATは、安定性と一般化のバランスを達成するために、敵データ拡張を自己教師付きMDE手法に統合する。
5つのベンチマーク実験により、SCATは最先端の性能を達成でき、既存の自己監督型MDE法の一般化能力を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-11-04T15:06:57Z) - Robust Deep Reinforcement Learning Through Adversarial Attacks and Training : A Survey [8.1138182541639]
Deep Reinforcement Learning (DRL)は、複雑な環境を横断してシーケンシャルなアクションをとる自律エージェントを訓練するための機械学習のサブフィールドである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念を高めている。
DRLのロバスト性向上手法として, 環境条件の未知の変化と摂動の可能性について考察する。
論文 参考訳(メタデータ) (2024-03-01T10:16:46Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Adversarially Robust Stability Certificates can be Sample-Efficient [14.658040519472646]
未知の非線形力学系に対する逆向きに頑健な安定性証明について考察する。
敵安定証明書を学習する統計的コストは,定型的安定性証明書を学習するのと同程度であることを示す。
論文 参考訳(メタデータ) (2021-12-20T17:23:31Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。