論文の概要: Enhancing Q-Value Updates in Deep Q-Learning via Successor-State Prediction
- arxiv url: http://arxiv.org/abs/2511.03836v1
- Date: Wed, 05 Nov 2025 20:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.206728
- Title: Enhancing Q-Value Updates in Deep Q-Learning via Successor-State Prediction
- Title(参考訳): 継承状態予測による深層Q-LearningにおけるQ値更新の強化
- Authors: Lipeng Zu, Hansong Zhou, Xiaonan Zhang,
- Abstract要約: ディープQ-Networks(DQN)は、リプレイバッファからサンプリングされた遷移から学習することで、将来のリターンを推定する。
SADQは後続状態分布をQ値推定プロセスに統合する。
我々は、SADQがトレーニングのばらつきを低減しつつ、不偏値の推定を維持できることを理論的に保証する。
- 参考スコア(独自算出の注目度): 3.2883573376133555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Q-Networks (DQNs) estimate future returns by learning from transitions sampled from a replay buffer. However, the target updates in DQN often rely on next states generated by actions from past, potentially suboptimal, policy. As a result, these states may not provide informative learning signals, causing high variance into the update process. This issue is exacerbated when the sampled transitions are poorly aligned with the agent's current policy. To address this limitation, we propose the Successor-state Aggregation Deep Q-Network (SADQ), which explicitly models environment dynamics using a stochastic transition model. SADQ integrates successor-state distributions into the Q-value estimation process, enabling more stable and policy-aligned value updates. Additionally, it explores a more efficient action selection strategy with the modeled transition structure. We provide theoretical guarantees that SADQ maintains unbiased value estimates while reducing training variance. Our extensive empirical results across standard RL benchmarks and real-world vector-based control tasks demonstrate that SADQ consistently outperforms DQN variants in both stability and learning efficiency.
- Abstract(参考訳): ディープQ-Networks(DQN)は、リプレイバッファからサンプリングされた遷移から学習することで、将来のリターンを推定する。
しかし、DQNのターゲット更新は、しばしば過去の、潜在的に最適でない、ポリシーからのアクションによって生成された次の状態に依存する。
その結果、これらの状態は情報的学習信号を提供しず、更新プロセスに高いばらつきをもたらす可能性がある。
この問題は、サンプルされた遷移がエージェントの現在のポリシーに不整合であるときに悪化する。
この制限に対処するため、確率遷移モデルを用いて環境動態を明示的にモデル化する継承状態集約深度Q-Network (SADQ)を提案する。
SADQは、後続状態の分布をQ値推定プロセスに統合し、より安定かつポリシーに準拠した値更新を可能にする。
さらに、モデル化された遷移構造を用いて、より効率的な行動選択戦略を探求する。
我々は、SADQがトレーニングのばらつきを低減しつつ、不偏値の推定を維持できることを理論的に保証する。
標準RLベンチマークと実世界のベクトルベース制御タスクにまたがる広範な実験結果から、SADQは安定性と学習効率の両方において、DQNの変種を一貫して上回っていることが示された。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Elastic Step DQN: A novel multi-step algorithm to alleviate
overestimation in Deep QNetworks [2.781147009075454]
Deep Q-Networksアルゴリズム(DQN)は、多くのAtari学習環境において、人間のレベルパフォーマンスを上回るためにディープニューラルネットワークを使用した最初の強化学習アルゴリズムである。
不安定な振る舞いはしばしば、過大評価バイアスと呼ばれる$Q$-値の過大評価によって特徴づけられる。
本稿では,訪問状態の類似性に基づいて,複数ステップ更新におけるステップサイズ水平度を動的に変化させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-07T04:56:04Z) - Topological Experience Replay [22.84244156916668]
深層Q-ラーニングメソッドは、経験リプレイバッファからサンプリングされた状態遷移を使用してQ-値を更新する。
エージェントの経験をグラフに整理し、状態のQ値間の依存性を明示的に追跡する。
本手法は,多種多様な目標達成タスクのベースラインよりも,データ効率が著しく高いことを実証的に示す。
論文 参考訳(メタデータ) (2022-03-29T18:28:20Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。