論文の概要: Stochastic Actor-Critic: Mitigating Overestimation via Temporal Aleatoric Uncertainty
- arxiv url: http://arxiv.org/abs/2601.00737v1
- Date: Fri, 02 Jan 2026 16:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.603934
- Title: Stochastic Actor-Critic: Mitigating Overestimation via Temporal Aleatoric Uncertainty
- Title(参考訳): 確率的アクター批判:時間的アラート的不確実性による過大評価の軽減
- Authors: Uğurcan Özalp,
- Abstract要約: 強化学習における非政治的アクター批判的手法は、時間差更新で批判者を訓練し、政策(アクター)の学習信号として利用する
現在の手法では、限られたデータとあいまいさをモデル化して悲観的な更新をスケールするため、批評家の不確かさを定量化するためにアンサンブルを用いている。
本研究では, ベルマンにおける遷移, 報酬, および政策による変動から生じる時間的(1つの)アレータ的不確実性を含む, Actor-C (STAC) と呼ばれる新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy actor-critic methods in reinforcement learning train a critic with temporal-difference updates and use it as a learning signal for the policy (actor). This design typically achieves higher sample efficiency than purely on-policy methods. However, critic networks tend to overestimate value estimates systematically. This is often addressed by introducing a pessimistic bias based on uncertainty estimates. Current methods employ ensembling to quantify the critic's epistemic uncertainty-uncertainty due to limited data and model ambiguity-to scale pessimistic updates. In this work, we propose a new algorithm called Stochastic Actor-Critic (STAC) that incorporates temporal (one-step) aleatoric uncertainty-uncertainty arising from stochastic transitions, rewards, and policy-induced variability in Bellman targets-to scale pessimistic bias in temporal-difference updates, rather than relying on epistemic uncertainty. STAC uses a single distributional critic network to model the temporal return uncertainty, and applies dropout to both the critic and actor networks for regularization. Our results show that pessimism based on a distributional critic alone suffices to mitigate overestimation, and naturally leads to risk-averse behavior in stochastic environments. Introducing dropout further improves training stability and performance by means of regularization. With this design, STAC achieves improved computational efficiency using a single distributional critic network.
- Abstract(参考訳): 強化学習における非政治的アクター批判的手法は、時間差更新で批評家を訓練し、政策(アクター)の学習信号として使用する。
この設計は、純粋に政治上の方法よりも高いサンプリング効率を達成するのが一般的である。
しかし、批評家ネットワークは、価値見積を体系的に過大評価する傾向がある。
これはしばしば不確実性推定に基づく悲観的バイアスを導入することで解決される。
現在の手法では、限られたデータとあいまいさをモデル化して悲観的な更新をスケールするため、批評家の認識の不確かさを定量化するためにアンサンブルを用いている。
本研究では, 確率的遷移, 報酬, 政策による変動から生じる時間的(一段階の)アレータ的不確かさを, 表皮的不確実性に頼るのではなく, 時間的差分更新における悲観的バイアスをスケールする, 確率的アクター・クリティカル (STAC) と呼ばれる新しいアルゴリズムを提案する。
STACは、時間的回帰の不確実性をモデル化するために単一分散批評家ネットワークを使用し、レギュラー化のために批評家ネットワークとアクターネットワークの両方にドロップアウトを適用する。
以上の結果から,分布的批判に基づく悲観主義は過大評価を軽減するのに十分であり,確率的環境下でのリスク・逆行動につながることが示唆された。
ドロップアウトの導入により、正規化によるトレーニングの安定性とパフォーマンスがさらに向上する。
この設計により、STACは単一分散批評家ネットワークを用いて、計算効率の向上を実現する。
関連論文リスト
- Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization [4.784045060345404]
この研究は、柔軟なバイアス制御とより強力な表現学習を実現するための拡張手法を導入する。
両アクターによる過大評価と楽観的な探索を緩和するために、悲観的推定のバランスをとる3つの凸組合せ戦略(対称と非対称)を提案する。
パフォーマンスをさらに向上するため、アクターと批評家ネットワークに拡張状態とアクション表現を統合する。
論文 参考訳(メタデータ) (2025-11-20T06:31:55Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - A Case for Validation Buffer in Pessimistic Actor-Critic [1.5022206231191775]
評価誤差はベルマン値と同様の固定点モデルにより近似できることを示す。
本稿では,悲観的批判が偏りのない条件を抽出するための検証ペシミズム学習(VPL)アルゴリズムを提案する。
VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために、小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
論文 参考訳(メタデータ) (2024-03-01T22:24:11Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics [2.56865487804497]
批判的信頼誘導探索(Critical Confidence Guided Exploration)は、政策の行動を提案として受け取り、この情報を学習スキームに組み込む。
CCGEは, 託宣方針を利用する隣接アルゴリズムに対して, 競合的に動作可能であることを示す。
論文 参考訳(メタデータ) (2022-08-22T18:26:43Z) - Learning Pessimism for Robust and Efficient Off-Policy Reinforcement
Learning [0.0]
時間差学習における過大評価バイアスを補償するオフポリティ深い強化学習アルゴリズム。
そこで本研究では,このような悲観主義を実践するために,新たな学習可能なペナルティを提案する。
また,2つのTD学習で批判者とともにペナルティを学習することを提案する。
論文 参考訳(メタデータ) (2021-10-07T12:13:19Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。