論文の概要: Operator-Guided Invariance Learning for Continuous Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.06500v1
- Date: Thu, 07 May 2026 16:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.984123
- Title: Operator-Guided Invariance Learning for Continuous Reinforcement Learning
- Title(参考訳): 連続強化学習のための演算子誘導型不変学習
- Authors: Zuyuan Zhang, Fei Xu Yu, Tian Lan,
- Abstract要約: 連続した時間と状態/行動空間を持つ強化学習(RL)は、しばしばデータ集約的で、ニュアンス変動とシフトの下で脆弱である。
textbfVPSD-RL(強化学習のための価値保存構造探索)を提案する。
連続 RL を、リー群作用と関連する引き戻し作用素によって定義される値保存写像による制御拡散としてモデル化する。
本稿では、値保存構造が、値関数を引いたり、制御されたジェネレータと通信し、報酬関数を転送する際に、正確に存在することを示す。
- 参考スコア(独自算出の注目度): 8.820825533010543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with continuous time and state/action spaces is often data-intensive and brittle under nuisance variability and shift, motivating methods that exploit value-preserving structures to stabilize and improve learning. Most existing approaches focus on special cases, such as prescribed symmetries and exact equivariance, without addressing how to discover more general structures that require nonlinear operators to transform and map between continuous state/action systems with isomorphic value functions. We propose \textbf{VPSD-RL} (Value-Preserving Structure Discovery for Reinforcement Learning). It models continuous RL as a controlled diffusion with value-preserving mappings defined through Lie-group actions and associated pullback operators. We show that a value-preserving structure exists exactly when pulling back the value function and pushing forward actions commute with the controlled generator and reward functional. Further, approximate value-preserving structures with rigorous guarantees can be found when the Hamilton--Jacobi--Bellman mismatch is small. This framework discovers exact and approximate value-preserving structures by searching for the associated Lie group operators. VPSD-RL fits differentiable drift, diffusion, and reward models; learns infinitesimal generators via determining-equation residual minimization; exponentiates them with ODE flows to obtain finite transformations; and integrates them into continuous RL through transition augmentation and transformation-consistency regularization. We show that bounded generator/reward mismatch implies quantitative stability of the optimal value function along approximate orbits, with sensitivity governed by the effective horizon, and observe improved data efficiency and robustness on continuous-control benchmarks.
- Abstract(参考訳): 連続した時間と状態/行動空間を持つ強化学習(RL)は、しばしばデータ集約的で、ニュアンス変動とシフトの下で脆弱であり、学習の安定化と改善のために価値保存構造を利用する動機付け手法である。
既存のほとんどのアプローチは、非線型作用素が同型値関数を持つ連続状態/作用系間の変換と写像を要求するより一般的な構造をいかに発見するかを問うことなく、所定の対称性や正確な同値性のような特別な場合に焦点を当てている。
本稿では,強化学習のための価値保存構造探索法として,textbf{VPSD-RL}を提案する。
連続 RL を、リー群作用と関連する引き戻し作用素によって定義される値保存写像による制御拡散としてモデル化する。
本稿では、値保存構造が、値関数を引いたり、制御されたジェネレータと通信し、報酬関数を転送する際に、正確に存在することを示す。
さらに、ハミルトン-ヤコビ-ベルマンミスマッチが小さいときに、厳密な保証を持つ近似値保存構造が見つかる。
このフレームワークは、関連するリー群作用素を探索することによって、正確で近似的な値保存構造を発見する。
VPSD-RLは、微分可能ドリフト、拡散、報酬モデルに適合し、決定方程式の残差最小化により無限小ジェネレータを学習し、ODEフローと指数化して有限変換を得る。
本研究では, 有界発電機/逆ミスマッチにより, 近似軌道に沿った最適値関数の定量的安定性が示され, 有効地平線に支配される感度が向上し, 連続制御ベンチマークにおけるデータ効率とロバスト性が向上したことを示す。
関連論文リスト
- Learning Stable Predictors from Weak Supervision under Distribution Shift [2.8410059035029955]
基盤トラストラベルが利用できない場合には、弱さやプロキシの監視から学ぶことが一般的である。
我々はこれを監督ドリフトとして形式化し、文脈間でのP(y | x, c)の変化として定義される。
我々はCRISPR-Cas13d実験において、RNA-seq応答から誘導効果を間接的に推定する実験を行った。
論文 参考訳(メタデータ) (2026-04-05T23:46:49Z) - Collaborative Temporal Feature Generation via Critic-Free Reinforcement Learning for Cross-User Sensor-Based Activity Recognition [16.776182784171713]
ウェアラブル慣性センサーを用いたヒューマンアクティビティ認識は、医療モニタリング、フィットネス分析、コンテキスト認識コンピューティングの基礎となる。
既存のドメインの一般化アプローチは、センサーストリームの時間的依存関係を無視したり、非現実的なターゲットドメインアノテーションに依存したりする。
我々は、強化学習によって制御される協調的な逐次生成プロセスとして、一般化可能な特徴抽出をモデル化する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-17T01:03:21Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Continuous-time reinforcement learning: ellipticity enables model-free value function approximation [1.3350982138577037]
本研究では、離散時間観測と行動によるマルコフ拡散過程の制御のための非政治強化学習について検討する。
データから直接関数を学習する関数近似を用いたモデルフリーアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2026-02-06T18:25:33Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks [3.924071936547547]
ゲーテッドニューラルネットワーク(RNN)は、適応的な学習速度の振る舞いを暗黙的に誘発する。
効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。
経験的シミュレーションはこれらの主張を裏付ける。
論文 参考訳(メタデータ) (2025-08-16T18:19:34Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Learning Successor States and Goal-Dependent Values: A Mathematical
Viewpoint [18.70146287117806]
後続状態とゴール依存値関数学習のための時間差アルゴリズムを導出する。
連続環境においても有限分散推定器を提供する。
長期依存関係に対する固定ポイントを完全に理解しています。
論文 参考訳(メタデータ) (2021-01-18T15:33:26Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。