論文の概要: Actor-Critic with Active Importance Sampling
- arxiv url: http://arxiv.org/abs/2605.07094v1
- Date: Fri, 08 May 2026 01:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.711968
- Title: Actor-Critic with Active Importance Sampling
- Title(参考訳): Actor-Critic with Active Importance Smpling (特集 バイオサイバネティックスとバイオサイバネティックス)
- Authors: Majid Molaei, Gabor Paczolay, Matteo Papini, Alberto Maria Metelli, Marcello Restelli,
- Abstract要約: 本稿では,Active-Importance-Sampling Actor-Critic (AISAC)アルゴリズムを提案する。
AISACはActor-Criticフレームワークの拡張であり、ポリシー勾配推定のばらつきを低減する。
実験では、標準的なアクター・クライブ法と比較して学習速度、サンプル効率、トレーニングが改善された。
- 参考スコア(独自算出の注目度): 61.41272490044518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the Active-Importance-Sampling Actor-Critic (AISAC) algorithm, an extension of the Actor-Critic framework for reducing variance in policy gradient estimation. AISAC optimizes the behavior policy to minimize gradient variance while preserving unbiased gradient estimates. Using importance sampling principles, the algorithm adapts the behavior policy toward efficient data collection distributions aligned with target policy gradients. For continuous action spaces, AISAC employs Gaussian behavior policies optimized through cross-entropy minimization. We provide theoretical analysis demonstrating variance reduction and unbiasedness. Experiments on Inverted Pendulum and Half Cheetah tasks show improved learning speed, sample efficiency, and training stability compared to standard Actor-Critic methods. Results indicate that optimizing the behavior policy improves both target policy updates and critic estimation accuracy across different hyperparameter settings. AISAC accelerates convergence and stabilizes reinforcement learning training, making it promising for real-world applications. Future work includes integration with advanced algorithms such as Soft Actor-Critic and TD3 for more complex environments.
- Abstract(参考訳): 本稿では,AISAC(Active-Importance-Sampling Actor-Critic)アルゴリズムを提案する。
AISACは、偏りのない勾配推定を保ちながら、勾配のばらつきを最小限に抑えるために行動ポリシーを最適化する。
重要サンプリングの原則を用いて、アルゴリズムは行動ポリシーを、目標とする方針勾配に整合した効率的なデータ収集分布に適応させる。
連続作用空間に対しては、AISACはクロスエントロピー最小化によって最適化されたガウス的行動ポリシーを用いる。
分散の低減と不偏性を示す理論的解析を行う。
Inverted PendulumおよびHalf Cheetahタスクの実験は、標準的なアクター・クリティカル法と比較して学習速度、サンプル効率、トレーニング安定性が改善された。
その結果、行動ポリシーの最適化は、目標ポリシー更新と評価精度の両方を異なるハイパーパラメータ設定で改善することが示された。
AISACは収束を加速し、強化学習訓練を安定化し、現実世界の応用に有望である。
今後の作業には、より複雑な環境のためにSoft Actor-CriticやTD3といった高度なアルゴリズムとの統合が含まれる。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics [8.318823695156974]
本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T15:00:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。