論文の概要: Actor-Critic without Actor
- arxiv url: http://arxiv.org/abs/2509.21022v1
- Date: Thu, 25 Sep 2025 11:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.867653
- Title: Actor-Critic without Actor
- Title(参考訳): アクターなしアクター批判
- Authors: Donghyeon Ki, Hee-Jun Ahn, Kyungyoon Kim, Byung-Jun Lee,
- Abstract要約: Actor-Critic without Actor (ACA)はアクターネットワークを排除し、ノイズレベルの批評家の分野から直接アクションを生成する軽量なフレームワークである。
ACAは、標準的なアクター批判法と最先端拡散法の両方と比較して、より好ましい学習曲線と競争性能を達成する。
- 参考スコア(独自算出の注目度): 4.94481688445056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic methods constitute a central paradigm in reinforcement learning (RL), coupling policy evaluation with policy improvement. While effective across many domains, these methods rely on separate actor and critic networks, which makes training vulnerable to architectural decisions and hyperparameter tuning. Such complexity limits their scalability in settings that require large function approximators. Recently, diffusion models have recently been proposed as expressive policies that capture multi-modal behaviors and improve exploration, but they introduce additional design choices and computational burdens, hindering efficient deployment. We introduce Actor-Critic without Actor (ACA), a lightweight framework that eliminates the explicit actor network and instead generates actions directly from the gradient field of a noise-level critic. This design removes the algorithmic and computational overhead of actor training while keeping policy improvement tightly aligned with the critic's latest value estimates. Moreover, ACA retains the ability to capture diverse, multi-modal behaviors without relying on diffusion-based actors, combining simplicity with expressiveness. Through extensive experiments on standard online RL benchmarks,ACA achieves more favorable learning curves and competitive performance compared to both standard actor-critic and state-of-the-art diffusion-based methods, providing a simple yet powerful solution for online RL.
- Abstract(参考訳): アクター批判的手法は、強化学習(RL)における中心的パラダイムであり、政策評価と政策改善の結合である。
多くの領域で効果的であるが、これらの手法はアクターと批評家のネットワークに依存しており、アーキテクチャ上の決定やハイパーパラメータチューニングに弱いトレーニングを可能にする。
このような複雑さは、大きな関数近似器を必要とする設定におけるスケーラビリティを制限する。
近年,多モーダルな振る舞いを捉え,探索を改善するための表現的ポリシーとして拡散モデルが提案されている。
Actor-Critic without Actor (ACA)はアクターネットワークを排除し、ノイズレベルの批評家の勾配場から直接アクションを生成する軽量なフレームワークである。
この設計では、アクタートレーニングのアルゴリズム的および計算的オーバーヘッドを排除し、ポリシーの改善は批評家の最新の評価値と密に一致している。
さらに、ACAは、拡散に基づくアクターに頼ることなく、多様なマルチモーダルな振る舞いを捉え、単純さと表現性を組み合わせる能力を維持している。
標準的なオンラインRLベンチマークに関する広範な実験を通じて、ACAは標準的なアクター批判法と最先端拡散法の両方と比較して、より好ましい学習曲線と競争性能を達成し、オンラインRLの単純かつ強力なソリューションを提供する。
関連論文リスト
- Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed [14.545253604335823]
SL-MGAC(Supervised Learning-enhanced Multi-Group Actor Critic Algorithm)を提案する。
本稿では,分散低減手法を取り入れた教師付き学習支援型アクター批判フレームワークを提案する。
また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。
論文 参考訳(メタデータ) (2024-11-28T04:06:02Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。