論文の概要: Clustering-Based Weight Orthogonalization for Stabilizing Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.11607v1
- Date: Sun, 02 Nov 2025 13:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.286434
- Title: Clustering-Based Weight Orthogonalization for Stabilizing Deep Reinforcement Learning
- Title(参考訳): クラスタリングによる重みの直交化による深層強化学習の安定化
- Authors: Guoqing Ma, Yuhan Zhang, Yuming Dai, Guangfu Hao, Yang Chen, Shan Yu,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は, 様々なタスクのパフォーマンス向上に寄与している。
多くの環境は本質的に非定常的であり、この非定常性は数百万の反復を必要とする結果となり、サンプル効率が低下する。
我々は、任意のRLアルゴリズムのポリシーネットワークに統合し、非定常性を効果的に緩和できるクラスタリング直交修正重み(COWM)層を導入する。
- 参考スコア(独自算出の注目度): 22.966488300685484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has made significant advancements, achieving superhuman performance in various tasks. However, RL agents often operate under the assumption of environmental stationarity, which poses a great challenge to learning efficiency since many environments are inherently non-stationary. This non-stationarity results in the requirement of millions of iterations, leading to low sample efficiency. To address this issue, we introduce the Clustering Orthogonal Weight Modified (COWM) layer, which can be integrated into the policy network of any RL algorithm and mitigate non-stationarity effectively. The COWM layer stabilizes the learning process by employing clustering techniques and a projection matrix. Our approach not only improves learning speed but also reduces gradient interference, thereby enhancing the overall learning efficiency. Empirically, the COWM outperforms state-of-the-art methods and achieves improvements of 9% and 12.6% in vision based and state-based DMControl benchmark. It also shows robustness and generality across various algorithms and tasks.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は, 様々なタスクにおいて超人的性能を達成し, 大幅な進歩を遂げている。
しかしながら、RLエージェントは環境定常性の仮定の下で動作し、多くの環境が本質的に非定常であるため、効率を学習する上で大きな課題となる。
この非定常性は数百万の反復を必要とする結果となり、サンプル効率が低下する。
この問題に対処するために、任意のRLアルゴリズムのポリシーネットワークに統合し、非定常性を効果的に緩和できるクラスタリング直交重み修正層(COWM)を導入する。
COWM層はクラスタリング技術と投影行列を用いて学習過程を安定化する。
提案手法は学習速度を向上するだけでなく,勾配干渉を低減し,全体的な学習効率を向上させる。
実証的には、COWMは最先端の手法より優れており、ビジョンベースと状態ベースのDMControlベンチマークで9%と12.6%の改善が達成されている。
また、様々なアルゴリズムやタスクにまたがる堅牢性と汎用性を示す。
関連論文リスト
- Accelerating Spectral Clustering under Fairness Constraints [56.865810822418744]
本研究では,Fair SC問題を凸関数(DC)フレームワークの差内にキャストすることで,フェアスペクトルクラスタリング(Fair SC)のための新しい効率的な手法を提案する。
本研究では,各サブプロブレムを効率よく解き,計算効率が先行処理よりも高いことを示す。
論文 参考訳(メタデータ) (2025-06-09T18:46:27Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning [10.117626902557927]
Dyna-style off-policy model-based reinforcement learning (DMBRL)アルゴリズムは、合成状態遷移データを生成するための一連の技術である。
本稿では,異なるベンチマーク環境におけるDMBRLアルゴリズムの適用時に観測された驚くべき性能差を同定し,検討する。
論文 参考訳(メタデータ) (2024-12-18T20:25:04Z) - Neural-Kernel Conditional Mean Embeddings [26.862984140099837]
カーネル条件付き平均埋め込み(CME)は条件分布を表す強力なフレームワークを提供するが、スケーラビリティと課題に直面することが多い。
本稿では,これらの課題に対処するために,ディープラーニングとCMEの強みを効果的に組み合わせた新しい手法を提案する。
条件付き密度推定タスクでは、NN-CMEハイブリッドは競合性能を達成し、しばしば既存のディープラーニング手法を上回ります。
論文 参考訳(メタデータ) (2024-03-16T08:51:02Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。