論文の概要: An Investigation of Batch Normalization in Off-Policy Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2509.23750v1
- Date: Sun, 28 Sep 2025 08:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.421238
- Title: An Investigation of Batch Normalization in Off-Policy Actor-Critic Algorithms
- Title(参考訳): オフポリシィアクター臨界アルゴリズムにおけるバッチ正規化の検討
- Authors: Li Wang, Sudun, Xingjian Zhang, Wenjun Wu, Lei Huang,
- Abstract要約: バッチ正規化(BN)は、トレーニング安定性を改善し、オーバーフィッティングを緩和し、より効果的な最適化を可能にすることによって、ディープラーニングの成功において重要な役割を担っている。
BNは深い強化学習環境において、特にその堅牢性と訓練の容易さによって、独特な優位性を維持している、と我々は主張する。
DRLパイプラインにおける頑健なBN統合のための実用的な提案を行うためのモード認識バッチ正規化(MA-BN)手法を提案する。
- 参考スコア(独自算出の注目度): 9.999241269705744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch Normalization (BN) has played a pivotal role in the success of deep learning by improving training stability, mitigating overfitting, and enabling more effective optimization. However, its adoption in deep reinforcement learning (DRL) has been limited due to the inherent non-i.i.d. nature of data and the dynamically shifting distributions induced by the agent's learning process. In this paper, we argue that, despite these challenges, BN retains unique advantages in DRL settings, particularly through its stochasticity and its ability to ease training. When applied appropriately, BN can adapt to evolving data distributions and enhance both convergence speed and final performance. To this end, we conduct a comprehensive empirical study on the use of BN in off-policy actor-critic algorithms, systematically analyzing how different training and evaluation modes impact performance. We further identify failure modes that lead to instability or divergence, analyze their underlying causes, and propose the Mode-Aware Batch Normalization (MA-BN) method with practical actionable recommendations for robust BN integration in DRL pipelines. We also empirically validate that, in RL settings, MA-BN accelerates and stabilizes training, broadens the effective learning rate range, enhances exploration, and reduces overall optimization difficulty. Our code is available at: https://github.com/monster476/ma-bn.git.
- Abstract(参考訳): バッチ正規化(BN)は、トレーニング安定性を改善し、オーバーフィッティングを緩和し、より効果的な最適化を可能にすることによって、ディープラーニングの成功において重要な役割を担っている。
しかし、深層強化学習(DRL)への導入は、データの性質やエージェントの学習プロセスによって引き起こされる動的に変化する分布によって制限されている。
本稿では,これらの課題にもかかわらず,BNはDRL設定において,特に確率性や訓練の容易さを通じて,ユニークなアドバンテージを維持している,と論じる。
適切に適用すれば、BNは進化するデータ分布に適応し、収束速度と最終性能の両方を向上させることができる。
そこで我々は,BNの非政治アクター批判アルゴリズムにおける利用に関する総合的な実証的研究を行い,学習モードと評価モードの違いがパフォーマンスに与える影響を体系的に分析した。
さらに、不安定性やばらつきにつながる障害モードを特定し、その原因を分析し、DRLパイプラインに堅牢なBN統合を実現するための実用的な提案を行うモード・アウェア・バッチ正規化法(MA-BN)を提案する。
また、RL設定において、MA-BNはトレーニングを加速し、安定させ、効果的な学習率範囲を広げ、探索を強化し、全体的な最適化の難しさを低減することを実証的に検証した。
私たちのコードは、https://github.com/monster476/ma-bn.git.comで利用可能です。
関連論文リスト
- CaRe-BN: Precise Moving Statistics for Stabilizing Spiking Neural Networks in Reinforcement Learning [50.87795054453648]
Spiking Neural Networks (SNN)は、ニューロモルフィックハードウェア上で低レイテンシでエネルギー効率の意思決定を提供する。
スパイクの離散的かつ微分不可能な性質のため、直接訓練されたSNNは勾配更新を安定させるためにバッチ正規化(BN)に大きく依存する。
オンライン強化学習(RL)では、BN統計は搾取を妨げ、収束と準最適政策を遅くする。
論文 参考訳(メタデータ) (2025-09-28T10:21:17Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Unified Batch Normalization: Identifying and Alleviating the Feature
Condensation in Batch Normalization and a Unified Framework [55.22949690864962]
バッチ正規化(BN)は、現代のニューラルネットワーク設計において欠かせない技術となっている。
UBN(Unified Batch Normalization)と呼ばれる2段階統合フレームワークを提案する。
UBNは異なる視覚バックボーンと異なる視覚タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-27T16:41:31Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Overcoming Recency Bias of Normalization Statistics in Continual
Learning: Balance and Adaptation [67.77048565738728]
継続的な学習には、一連のタスクを学習し、彼らの知識を適切にバランスさせることが含まれる。
本稿では,タスク・ワイド・コントリビューションに適応するためのベイズ的戦略を適切に取り入れた BN の適応バランス (AdaB$2$N) を提案する。
提案手法は,幅広いベンチマークにおいて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T04:50:40Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Counterbalancing Teacher: Regularizing Batch Normalized Models for
Robustness [15.395021925719817]
バッチ正規化(BN)は、より精度の高い収束を加速するディープニューラルネットワークのトレーニング技術である。
BNは、トレーニング(ドメイン内)データに非常に依存する低分散機能に依存してモデルにインセンティブを与えることを示す。
本稿では,学生ネットワークの頑健な表現の学習を強制するために,反バランス教師(CT)を提案する。
論文 参考訳(メタデータ) (2022-07-04T16:16:24Z) - Continual Normalization: Rethinking Batch Normalization for Online
Continual Learning [21.607816915609128]
オンライン連続学習におけるバッチ正規化(BN)のクロスタスク正規化効果について検討した。
BNは、現在のタスクに偏ったモーメントを使用してテストデータを正規化し、破滅的な忘れを生じさせる。
本研究は, BNに類似したトレーニングを促進するために, 負の効果を緩和しつつ, 連続正規化(CN)を提案する。
論文 参考訳(メタデータ) (2022-03-30T07:23:24Z) - Rebalancing Batch Normalization for Exemplar-based Class-Incremental
Learning [23.621259845287824]
バッチ正規化(BN)は、様々なコンピュータビジョンタスクにおけるニューラルネットに対して広く研究されている。
我々はBNの新しい更新パッチを開発し、特にCIL(Exemplar-based class-incremental Learning)に特化している。
論文 参考訳(メタデータ) (2022-01-29T11:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。