論文の概要: AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.06149v1
- Date: Thu, 07 May 2026 12:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.784055
- Title: AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning
- Title(参考訳): AdaGamma:強化学習における時間適応のための状態依存的評価
- Authors: Yaomin Wang, Jianting Pan, Ran Tian, Xiaoyang Li, Yu Zhang, Hengle Qin, Tianshu YU,
- Abstract要約: 国家依存割引は概念的には魅力的だが、真に深いアクター-批判的な実装は、TDエラーの崩壊に向かって退化することができる。
AdaGammaは、状態依存割引の実践的ディープアクター批判的手法であり、状態依存割引関数をリターン整合性目標とともに学習する。
- 参考スコア(独自算出の注目度): 13.721410595245894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discount factor in reinforcement learning controls both the effective planning horizon and the strength of bootstrapping, yet most deep RL methods use a single fixed value across all states. While state-dependent discounting is conceptually appealing, naive deep actor--critic implementations can become unstable and degenerate toward TD-error collapse. We propose AdaGamma, a practical deep actor--critic method for state-dependent discounting that learns a state-dependent discount function together with a return-consistency objective to regularize the induced backup structure. On the theory side, we analyze the Bellman operator induced by state-dependent discounting and establish its basic well-posedness properties under suitable conditions. Empirically, AdaGamma integrates into both SAC and PPO, yielding consistent improvements on continuous-control benchmarks, and achieves statistically significant gains in an online A/B test on the JD Logistics platform. These results suggest that state-dependent discounting can be made effective in deep RL when coupled with a return-consistency objective that prevents degenerate target manipulation.
- Abstract(参考訳): 強化学習における割引係数は、効果的な計画地平線とブートストラップの強度の両方を制御するが、ほとんどの深いRL法は、全ての州で単一の固定値を使用する。
国家依存割引は概念的に魅力的であるが、真に深いアクター-批判的な実装は不安定になり、TDエラーの崩壊に向かって退化する可能性がある。
AdaGammaは、状態依存割引関数を学習し、リターン一貫性を目標とすることで、引き起こされたバックアップ構造を規則化する、実用的な状態依存割引のディープアクター批判手法である。
理論面では、状態依存割引によって誘導されるベルマン作用素を解析し、適切な条件下で基本的良値性を確立する。
実証的には、AdaGammaはSACとPPOの両方に統合され、継続的制御ベンチマークで一貫した改善をもたらし、JD Logisticsプラットフォーム上でのオンラインA/Bテストで統計的に有意な改善を実現している。
これらの結果から, 状態依存型ディスカウントは, 目標操作の退行を防止できるリターン整合性目標と組み合わせることで, 深部RLに有効であることが示唆された。
関連論文リスト
- The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Delayed Homomorphic Reinforcement Learning for Environments with Delayed Feedback [11.866061471514582]
遅延したフィードバックはマルコフの仮定を破り、学習と制御を妨げる。
本稿では,MDP準同型に基づく枠組みを提案する。
MuJoCoベンチマークにおける連続制御タスクの実験は、我々のアルゴリズムが強化ベースのベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2026-04-04T08:38:52Z) - Belief-State RWKV for Reinforcement Learning under Partial Observability [0.7364191922317778]
本稿では,RWKV型リカレントシーケンスモデル上にRLのより強い定式化を提案する。
我々は、RWKVスタイルのリカレント統計から導出した、コンパクトな不確実性認識状態b_t = (_t, _t) を維持する。
論文 参考訳(メタデータ) (2026-04-01T22:28:38Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification [14.911955979675772]
我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトさせるアンコレッドポリシー最適化(APO)を提案する。
APOは精度と多様性のトレードオフを破り、Pass@1を大幅に改善します。
論文 参考訳(メタデータ) (2026-02-05T14:41:57Z) - Stochastic Decision Horizons for Constrained Reinforcement Learning [22.755234154139174]
CMDP(Constrained Markov decision process)は、強化学習において、安全やその他の補助的目的などの制約を扱うための原則的モデルを提供する。
そこで我々は,制約違反が報酬の貢献を減らし,状態行動依存の継続を通じて効果的な計画的地平を短縮する,状態行動依存型意思決定地平に基づく推論の定式化として制御を提案する。
そこで我々は,SAC/MPO方式の政策改善につながる異なる構造を生かして,同じ生存重み付けリターンを共有する,吸収と仮想終了という2つの違反セマンティクスを提案する。
論文 参考訳(メタデータ) (2026-02-04T14:27:16Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Mirror Descent Actor Critic via Bounded Advantage Learning [0.0]
Mirror Descent Value Iteration (MDVI)は、Kulback-Leiblerの発散とエントロピーを、その値とポリシー更新の正則化として使用している。
本稿では,MDVIのアクター・アクター・アクター・アクター・クリティカル(MDAC)を連続的なアクション・ドメインに対するアクター・アクター・アクター・アクター・アクター・アクター・クリティ(MDAC)として提案する。
論文 参考訳(メタデータ) (2025-02-06T08:14:03Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。