論文の概要: Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic
- arxiv url: http://arxiv.org/abs/2507.06625v1
- Date: Wed, 09 Jul 2025 07:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.512935
- Title: Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic
- Title(参考訳): Q-STAC:Q-Guided Stein Variational Model Predictive Actor-Critic
- Authors: Shizhe Cai, Jayadeep Jacob, Zeya Yin, Fabio Ramos,
- Abstract要約: 本稿では,連続制御タスクのためのQ-guided STein variational model predictive Actor-Critic (Q-STAC)フレームワークを提案する。
本手法では,学習したQ値を直接目的とする制御シーケンスを最適化し,明示的なコスト関数設計の必要性を解消する。
2次元ナビゲーションとロボット操作タスクの実験は、Q-STACが最先端のアルゴリズムと比較して優れたサンプリング効率、堅牢性、最適性を達成することを示した。
- 参考スコア(独自算出の注目度): 12.837649598521102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has shown remarkable success in continuous control tasks, yet often requires extensive training data, struggles with complex, long-horizon planning, and fails to maintain safety constraints during operation. Meanwhile, Model Predictive Control (MPC) offers explainability and constraint satisfaction, but typically yields only locally optimal solutions and demands careful cost function design. This paper introduces the Q-guided STein variational model predictive Actor-Critic (Q-STAC), a novel framework that bridges these approaches by integrating Bayesian MPC with actor-critic reinforcement learning through constrained Stein Variational Gradient Descent (SVGD). Our method optimizes control sequences directly using learned Q-values as objectives, eliminating the need for explicit cost function design while leveraging known system dynamics to enhance sample efficiency and ensure control signals remain within safe boundaries. Extensive experiments on 2D navigation and robotic manipulation tasks demonstrate that Q-STAC achieves superior sample efficiency, robustness, and optimality compared to state-of-the-art algorithms, while maintaining the high expressiveness of policy distributions. Experiment videos are available on our website: https://sites.google.com/view/q-stac
- Abstract(参考訳): 深層強化学習は、連続的な制御タスクにおいて顕著な成功を示しているが、大規模なトレーニングデータを必要とし、複雑な長期計画に苦慮し、運用中の安全上の制約を維持するのに失敗することが多い。
一方、モデル予測制御(MPC)は説明可能性と制約満足度を提供するが、通常は局所最適解しか得られず、注意深いコスト関数設計を要求する。
本稿では,Q-guided STein variational model predictive Actor-Critic (Q-STAC)について紹介する。
提案手法は,学習したQ値を直接目的とする制御シーケンスを最適化し,既知のシステムダイナミクスを活用しながら明示的なコスト関数設計の必要性を排除し,サンプル効率を向上し,制御信号が安全なバウンダリ内に留まることを保証する。
2次元ナビゲーションとロボット操作タスクに関する大規模な実験により、Q-STACは、政策分布の高表現性を維持しながら、最先端のアルゴリズムよりも優れたサンプル効率、堅牢性、最適性を達成できることが示された。
実験ビデオは、我々のウェブサイトで公開されている。
関連論文リスト
- Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions [18.643104368680593]
強化学習では、DDPGやTD3のような非政治的アクター批判的アプローチは決定論的政策勾配に基づいている。
i) 複数のアクターを用いてQ値の最大化動作を評価すること,(ii)勾配法で最適化し易いQ値関数を学習すること,の2つの単純な知見を組み合わせた新しいアクタアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-15T17:58:03Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Q-WSL: Optimizing Goal-Conditioned RL with Weighted Supervised Learning via Dynamic Programming [22.359171999254706]
GoalConditioned Weighted Supervised Learning (GCWSL)と呼ばれる新しい高度なアルゴリズムのクラスが最近登場し、ゴール条件強化学習(RL)におけるスパース報酬による課題に対処している。
GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。
しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。
本稿では,GCの限界を克服する新しいフレームワークであるQ-learning Weighted Supervised Learning (Q-WSL)を提案する。
論文 参考訳(メタデータ) (2024-10-09T08:00:12Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。