論文の概要: XQC: Well-conditioned Optimization Accelerates Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25174v1
- Date: Mon, 29 Sep 2025 17:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.15081
- Title: XQC: Well-conditioned Optimization Accelerates Deep Reinforcement Learning
- Title(参考訳): XQC: 厳格な最適化が深層強化学習を加速
- Authors: Daniel Palenicek, Florian Vogt, Joe Watson, Ingmar Posner, Jan Peters,
- Abstract要約: 我々は,ソフトアクター・クリティックをベースとした,よく動機付けられた,サンプル効率の高いディープアクター・クリティックアルゴリズムであるXQCを紹介する。
55のプロプリセプションと15の視覚に基づく連続制御タスクにまたがる最先端のサンプル効率を実現する。
- 参考スコア(独自算出の注目度): 26.063477716451512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample efficiency is a central property of effective deep reinforcement learning algorithms. Recent work has improved this through added complexity, such as larger models, exotic network architectures, and more complex algorithms, which are typically motivated purely by empirical performance. We take a more principled approach by focusing on the optimization landscape of the critic network. Using the eigenspectrum and condition number of the critic's Hessian, we systematically investigate the impact of common architectural design decisions on training dynamics. Our analysis reveals that a novel combination of batch normalization (BN), weight normalization (WN), and a distributional cross-entropy (CE) loss produces condition numbers orders of magnitude smaller than baselines. This combination also naturally bounds gradient norms, a property critical for maintaining a stable effective learning rate under non-stationary targets and bootstrapping. Based on these insights, we introduce XQC: a well-motivated, sample-efficient deep actor-critic algorithm built upon soft actor-critic that embodies these optimization-aware principles. We achieve state-of-the-art sample efficiency across 55 proprioception and 15 vision-based continuous control tasks, all while using significantly fewer parameters than competing methods.
- Abstract(参考訳): サンプル効率は、効果的な深層強化学習アルゴリズムの中心的な特性である。
最近の研究は、より大きなモデル、エキゾチックなネットワークアーキテクチャ、より複雑なアルゴリズムなどの複雑さを追加して、これを改善している。
我々は、批評家ネットワークの最適化の展望に焦点をあてることで、より原則的なアプローチをとる。
批評家のヘッセンの固有スペクトルと条件数を用いて、一般的な設計決定がトレーニング力学に与える影響を体系的に調査する。
解析の結果, バッチ正規化(BN), ウェイト正規化(WN), 分散クロスエントロピー(CE)損失の新たな組み合わせは, ベースラインよりも桁違いに小さい条件数を生成することがわかった。
この組み合わせはまた、非定常的な目標とブートストラッピングの下で安定した効果的な学習率を維持するために重要な特性である勾配ノルムを自然に拘束する。
これらの知見に基づき、我々はXQCを紹介した。XQCは、これらの最適化を意識した原則を具現化した、ソフトアクター批判に基づく、よく動機付けられた、サンプリング効率の高いディープアクター批判アルゴリズムである。
55のプロプリセプションと15の視覚に基づく連続制御タスクにまたがる最先端のサンプル効率を実現する。
関連論文リスト
- CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design [3.549422886703227]
COREはシミュレーション誘導DSEのための制約対応一段階強化学習法である。
ニューラルネットワークアクセラレーターのハードウェアマッピング共同設計のためのCOREをインスタンス化する。
論文 参考訳(メタデータ) (2025-06-04T01:08:34Z) - Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Unsupervised Learning for Combinatorial Optimization with Principled
Objective Relaxation [19.582494782591386]
本研究は,最適化(CO)問題に対する教師なし学習フレームワークを提案する。
我々の重要な貢献は、緩和された目的がエントリーワイドな凹凸を満たすならば、低い最適化損失は最終積分解の品質を保証するという観察である。
特に、この観察は、対象が明示的に与えられていないアプリケーションにおいて、事前にモデル化される必要がある場合に、対象モデルの設計を導くことができる。
論文 参考訳(メタデータ) (2022-07-13T06:44:17Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-04-07T23:38:29Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。