論文の概要: Improving Actor-Critic Training with Steerable Action-Value Approximation Errors
- arxiv url: http://arxiv.org/abs/2406.03890v2
- Date: Wed, 20 Aug 2025 07:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.057204
- Title: Improving Actor-Critic Training with Steerable Action-Value Approximation Errors
- Title(参考訳): ステアブルアクション値近似誤差を用いたアクタクリティカルトレーニングの改善
- Authors: Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir,
- Abstract要約: 政治的でないアクター批判的アルゴリズムは、継続的な制御タスクに対する深い強化学習の強い可能性を示している。
我々は,俳優と批評家の双方に対して,悲観主義と楽観主義の独立的かつ解釈可能な制御を可能にするために,Utility Soft Actor-Critic (USAC)を提案する。
USACは一貫して最先端のアルゴリズムを上回り、実用性と実現可能性を示している。
- 参考スコア(独自算出の注目度): 13.374594152438691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy actor-critic algorithms have shown strong potential in deep reinforcement learning for continuous control tasks. Their success primarily comes from leveraging pessimistic state-action value function updates, which reduce function approximation errors and stabilize learning. However, excessive pessimism can limit exploration, preventing the agent from effectively refining its policies. Conversely, optimism can encourage exploration but may lead to high-risk behaviors and unstable learning if not carefully managed. To address this trade-off, we propose Utility Soft Actor-Critic (USAC), a novel framework that allows independent, interpretable control of pessimism and optimism for both the actor and the critic. USAC dynamically adapts its exploration strategy based on the uncertainty of critics using a utility function, enabling a task-specific balance between optimism and pessimism. This approach goes beyond binary choices of pessimism or optimism, making the method both theoretically meaningful and practically feasible. Experiments across a variety of continuous control tasks show that adjusting the degree of pessimism or optimism significantly impacts performance. When configured appropriately, USAC consistently outperforms state-of-the-art algorithms, demonstrating its practical utility and feasibility.
- Abstract(参考訳): 政治的でないアクター批判的アルゴリズムは、継続的な制御タスクに対する深い強化学習の強い可能性を示している。
その成功は主に悲観的な状態-作用値関数の更新を活用することで、関数近似の誤差を減らし、学習を安定させる。
しかし過度の悲観主義は探索を制限し、エージェントがその政策を効果的に洗練させない。
逆に、楽観主義は探索を奨励するが、慎重に管理しなければリスクの高い行動や不安定な学習につながる可能性がある。
このトレードオフに対処するため、我々は、俳優と批評家の両方に対して、悲観主義と楽観主義の独立的かつ解釈可能な制御を可能にする新しい枠組みであるUtility Soft Actor-Critic (USAC)を提案する。
USACは実用的機能を用いて批判者の不確実性に基づいて探索戦略を動的に適用し、楽観主義と悲観主義のタスク固有のバランスを可能にする。
このアプローチは悲観主義や楽観主義という二項選択を越えており、理論上有意義で実用的にも実現可能である。
様々な連続制御タスクに対する実験では、悲観論や楽観論の度合いの調整がパフォーマンスに大きな影響を及ぼすことが示された。
適切に設定すると、USACは最先端のアルゴリズムを一貫して上回り、実用性と実現可能性を示している。
関連論文リスト
- Stochastic Actor-Critic: Mitigating Overestimation via Temporal Aleatoric Uncertainty [0.0]
強化学習における非政治的アクター批判的手法は、時間差更新で批判者を訓練し、政策(アクター)の学習信号として利用する
現在の手法では、限られたデータとあいまいさをモデル化して悲観的な更新をスケールするため、批評家の不確かさを定量化するためにアンサンブルを用いている。
本研究では, ベルマンにおける遷移, 報酬, および政策による変動から生じる時間的(1つの)アレータ的不確実性を含む, Actor-C (STAC) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-02T16:33:17Z) - Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization [4.784045060345404]
この研究は、柔軟なバイアス制御とより強力な表現学習を実現するための拡張手法を導入する。
両アクターによる過大評価と楽観的な探索を緩和するために、悲観的推定のバランスをとる3つの凸組合せ戦略(対称と非対称)を提案する。
パフォーマンスをさらに向上するため、アクターと批評家ネットワークに拡張状態とアクション表現を統合する。
論文 参考訳(メタデータ) (2025-11-20T06:31:55Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - DROP: Distributional and Regular Optimism and Pessimism for Reinforcement Learning [6.20048328543366]
本稿では,制御を推論として導いた楽観主義と悲観主義を用いた理論的基礎モデルを提案する。
モデルでは学習性能は低かったが,DROPは全タスクにおいて高い一般性を示した。
論文 参考訳(メタデータ) (2024-10-22T23:14:09Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - A Case for Validation Buffer in Pessimistic Actor-Critic [1.5022206231191775]
評価誤差はベルマン値と同様の固定点モデルにより近似できることを示す。
本稿では,悲観的批判が偏りのない条件を抽出するための検証ペシミズム学習(VPL)アルゴリズムを提案する。
VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために、小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
論文 参考訳(メタデータ) (2024-03-01T22:24:11Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T02:14:10Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Deep Reinforcement Learning with Dynamic Optimism [29.806071693039655]
最適な楽観主義の度合いは、タスクや学習過程によって異なることが示される。
この知見にインスパイアされた我々は、楽観的価値学習と悲観的価値学習を切り替える、新しいディープアクター批判アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-02-07T10:28:09Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。