論文の概要: Constant in an Ever-Changing World
- arxiv url: http://arxiv.org/abs/2510.03330v1
- Date: Wed, 01 Oct 2025 18:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.836958
- Title: Constant in an Ever-Changing World
- Title(参考訳): Ever-Changing Worldにおける定数
- Authors: Andy Wu, Chun-Cheng Lin, Yuehua Huang, Rung-Tzuo Liaw,
- Abstract要約: Ever-Changing World (CIC)フレームワークの定数は、アルゴリズムの安定性を高めてパフォーマンスを向上させる。
我々は,5つのMuJoCo環境上でCICを評価し,CICが計算コストを増大させることなく従来のアルゴリズムの性能を向上させることを示した。
- 参考スコア(独自算出の注目度): 1.9029295310635828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training process of reinforcement learning often suffers from severe oscillations, leading to instability and degraded performance. In this paper, we propose a Constant in an Ever-Changing World (CIC) framework that enhances algorithmic stability to improve performance. CIC maintains both a representative policy and a current policy. Instead of updating the representative policy blindly, CIC selectively updates it only when the current policy demonstrates superiority. Furthermore, CIC employs an adaptive adjustment mechanism, enabling the representative and current policies to jointly facilitate critic training. We evaluate CIC on five MuJoCo environments, and the results show that CIC improves the performance of conventional algorithms without incurring additional computational cost.
- Abstract(参考訳): 強化学習の訓練過程は、しばしば激しい振動に悩まされ、不安定性や性能低下につながる。
本稿では,アルゴリズムの安定性を向上し,性能向上を図る,Ever-Changing World (CIC) フレームワークの定数を提案する。
CICは代表的政策と現在の政策の両方を維持している。
代表ポリシーを盲目的に更新する代わりに、CICは、現行ポリシーが優位性を示す場合にのみ、それを選択的に更新する。
さらに、CICは適応調整機構を採用し、代表者と現在の政策が共同で批評家の訓練を円滑に行えるようにしている。
我々は,5つのMuJoCo環境上でCICを評価し,CICが計算コストを増大させることなく従来のアルゴリズムの性能を向上させることを示した。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models [54.18605375476406]
安定的な客観的な改革と原則的なタイムステップの再重み付けを通じて、比例的な信用割当を強制する枠組みであるPCPO(Proportionate Credit Policy Optimization)を導入する。
PCPOは、最先端のDanceGRPOを含むすべての面で、既存の方針勾配ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-09-30T04:43:58Z) - Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning [15.539607264374242]
マルチエージェント強化学習 (MARL) は, 協調的対人作業において高い性能を示した。
本稿では,自己適応型難易度調整機構を用いた動的カリキュラム学習フレームワークを提案する。
本手法はトレーニングの安定性と最終性能を両立させ,最先端の手法と競合する結果を得る。
論文 参考訳(メタデータ) (2025-06-09T08:38:18Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.642505299142956]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
政治上の強化学習を、明白な批評家と実践することは、これらの特性の両方を提供することを示す。
得られたアルゴリズムは、政策評価と政策改善の段階において、明らかな不確実性の不可欠な役割のために、$textit Evidential Proximal Policy Optimization (EPPO)$と命名する。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - Value Improved Actor Critic Algorithms [5.301318117172143]
我々は,アクタ批判アルゴリズムの標準フレームワークを価値改善とともに拡張する。
このアプローチが一般化政策イテレーションの一般的な分析スキームに収束することを証明する。
実証的には、一般的なオフポリティックなアクター批判アルゴリズムTD3とSACに価値改善を組み込むことで、それぞれのベースラインのパフォーマンスを大幅に改善または一致させる。
論文 参考訳(メタデータ) (2024-06-03T15:24:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - COPR: Continual Human Preference Learning via Optimal Policy Regularization [54.4973136224034]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。
本稿では,最適政策理論からインスピレーションを得たCOPR法を提案する。
論文 参考訳(メタデータ) (2024-02-22T02:20:08Z) - Cautious Actor-Critic [11.82492300303637]
本稿では, アクター・クリティカル(CAC)の非政治ACアルゴリズムを提案する。
CACは、学習を著しく安定させながら、同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-07-12T06:40:02Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。