論文の概要: Actor-Free Continuous Control via Structurally Maximizable Q-Functions
- arxiv url: http://arxiv.org/abs/2510.18828v1
- Date: Tue, 21 Oct 2025 17:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.02979
- Title: Actor-Free Continuous Control via Structurally Maximizable Q-Functions
- Title(参考訳): 構造的最大化可能なQ-Functionによるアクタフリー連続制御
- Authors: Yigit Korkmaz, Urvi Bhuwania, Ayush Jain, Erdem Bıyık,
- Abstract要約: 本稿では,Q関数の構造を再考する連続制御のための純粋に価値に基づくフレームワークを提案する。
提案するアクターフリーQ-ラーニング手法を,様々なシミュレーションタスクに対して評価する。
- 参考スコア(独自算出の注目度): 3.7193386971098406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value-based algorithms are a cornerstone of off-policy reinforcement learning due to their simplicity and training stability. However, their use has traditionally been restricted to discrete action spaces, as they rely on estimating Q-values for individual state-action pairs. In continuous action spaces, evaluating the Q-value over the entire action space becomes computationally infeasible. To address this, actor-critic methods are typically employed, where a critic is trained on off-policy data to estimate Q-values, and an actor is trained to maximize the critic's output. Despite their popularity, these methods often suffer from instability during training. In this work, we propose a purely value-based framework for continuous control that revisits structural maximization of Q-functions, introducing a set of key architectural and algorithmic choices to enable efficient and stable learning. We evaluate the proposed actor-free Q-learning approach on a range of standard simulation tasks, demonstrating performance and sample efficiency on par with state-of-the-art baselines, without the cost of learning a separate actor. Particularly, in environments with constrained action spaces, where the value functions are typically non-smooth, our method with structural maximization outperforms traditional actor-critic methods with gradient-based maximization. We have released our code at https://github.com/USC-Lira/Q3C.
- Abstract(参考訳): 価値に基づくアルゴリズムは、単純さとトレーニングの安定性のために、政治外の強化学習の基盤となる。
しかし、それらの用途は個々の状態-作用対に対するQ値の推定に依存するため、伝統的に離散的な作用空間に限られてきた。
連続的な作用空間では、作用空間全体に対するQ値の評価は計算不可能となる。
これを解決するために、一般的にアクター批判法が用いられ、批判者は政治外のデータに基づいてQ値の推定を訓練し、アクターは批評家の出力を最大化するために訓練される。
その人気にもかかわらず、これらの手法は訓練中に不安定な状態に陥ることが多い。
本研究では,Q関数の構造的最大化を再考し,効率的かつ安定した学習を可能にするための重要なアーキテクチャ的およびアルゴリズム的選択のセットを導入する,連続制御のための純粋に価値に基づくフレームワークを提案する。
提案手法は,アクターを個別に学習するコストを伴わずに,最先端のベースラインに匹敵する性能とサンプル効率を実証し,様々な標準的なシミュレーションタスクに対するアクターフリーQ-ラーニング手法の評価を行う。
特に、値関数が通常非滑らかな制約された行動空間を持つ環境では、構造的最大化を用いた手法は、勾配に基づく最大化を伴う従来のアクター批判法よりも優れる。
コードをhttps://github.com/USC-Lira/Q3Cでリリースしました。
関連論文リスト
- Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions [11.572333300040619]
本稿では,複数のアクション提案を生成し,最も高いQ値を選択するアクタアーキテクチャであるSAVOを紹介する。
我々は,制限された移動,器用な操作,大規模な離散行動空間レコメンダシステムなどのタスクを評価する。
論文 参考訳(メタデータ) (2024-10-15T17:58:03Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。