論文の概要: AdamO: A Collapse-Suppressed Optimizer for Offline RL
- arxiv url: http://arxiv.org/abs/2605.01968v1
- Date: Sun, 03 May 2026 16:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.022962
- Title: AdamO: A Collapse-Suppressed Optimizer for Offline RL
- Title(参考訳): AdamO:オフラインRLの崩壊抑制最適化
- Authors: Nan Qiao, Sheng Yue, Shuning Wang, Ju Ren,
- Abstract要約: オフラインの強化学習は、ブートストラップされた時間差分(TD)更新が自身のエラーを増幅し、批評家を極端で使用不能なQ値へと駆り立てると、驚くほど失敗する可能性がある。
我々は、オフラインのTD学習をフィードバックシステムとしてモデル化し、Adamベースの批評家の更新を分析する。
この設計は理論的に最悪の作業の安全性を保証し、Adamの連続発散ダイナミクスを保っていることを証明している。
- 参考スコア(独自算出の注目度): 12.482937306811026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) can fail spectacularly when bootstrapped temporal-difference (TD) updates amplify their own errors, driving the critic toward extreme and unusable Q-values. A key counterintuitive insight of this work is that collapse is not only a property of the backup rule or network architecture: optimizer dynamics themselves can directly trigger or suppress instability. From a control-theoretic viewpoint, we model offline TD learning as a feedback system and analyze Adam-based critic updates. This yields a necessary and sufficient condition for stability of the induced local update dynamics: within the regime we analyze, these dynamics are stable if and only if the spectral radius of the corresponding update operator is strictly below one. Further analysis suggests that standard Adam updates can inadvertently distort the parameter geometry, motivating explicit orthogonality constraints to prevent TD error amplification. To this end, we propose AdamO, an Adam-based optimizer with a decoupled orthogonality correction regulated by a strict task-alignment budget. We prove that this design theoretically guarantees worst-case task safety and preserves Adam's continuous-time dissipative dynamics. Empirically, AdamO is broadly compatible with diverse offline RL baselines, improving stability and returns across a broad suite of benchmarks.
- Abstract(参考訳): オフライン強化学習(RL)は、ブートストラップされた時間差分更新(TD)が自身のエラーを増幅し、批評家を極端で使用不能なQ値に導くと、著しく失敗する可能性がある。
この作業に関する重要な反直感的な洞察は、崩壊はバックアップルールやネットワークアーキテクチャの特性だけではなく、オプティマイザのダイナミクス自体が直接不安定をトリガーしたり抑制したりすることができる、ということである。
制御理論の観点から、オフラインTD学習をフィードバックシステムとしてモデル化し、アダムベースの批判的更新を分析する。
このことは、誘導された局所更新ダイナミクスの安定性に必要かつ十分な条件を与える:我々が分析した状態において、これらの力学が安定であることと、対応する更新演算子のスペクトル半径が1以下であることは同値である。
さらに分析した結果、標準的なAdam更新はパラメータの幾何を不注意に歪め、TDエラーの増幅を防ぐために明示的な直交制約を動機付けることが示唆された。
この目的のために,厳格なタスクアライメント予算で規制された非結合直交補正を持つAdamベースの最適化器AdamOを提案する。
この設計は理論的に最悪の作業の安全性を保証し、Adamの連続発散ダイナミクスを保っていることを証明している。
実証的には、AdamOは多様なオフラインRLベースラインと広く互換性があり、安定性を改善し、幅広いベンチマークスイートにまたがって戻ります。
関連論文リスト
- Decoupled Orthogonal Dynamics: Regularization for Deep Network Optimizers [7.170491058218013]
我々はマグニチュードと方向が異なる役割を担い、動的に分離されるべきであると主張している。
SGDスタイルの更新は1次元ノルム制御を処理し、Adamの適応的プレコンディショニングは接部分空間に限定される。
ビジョンと言語タスクの実験は、AdamOがAdamWに対する一般化と安定性を改善し、追加の複雑な制約を導入することなく実現していることを示している。
論文 参考訳(メタデータ) (2026-02-04T23:41:51Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。