論文の概要: Frictional Q-Learning
- arxiv url: http://arxiv.org/abs/2509.19771v2
- Date: Thu, 25 Sep 2025 04:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.116692
- Title: Frictional Q-Learning
- Title(参考訳): Frictional Q-Learning
- Authors: Hyunwoo Kim, Hyo Kyung Lee,
- Abstract要約: 連続制御のための深層強化学習アルゴリズムであるFrictional Q-learningを提案する。
我々のアルゴリズムはエージェントの行動空間を制約し、正規直交作用空間の多様体からの距離を維持しながら、リプレイバッファと同様の振る舞いを奨励する。
- 参考スコア(独自算出の注目度): 4.1384906228154215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We draw an analogy between static friction in classical mechanics and extrapolation error in off-policy RL, and use it to formulate a constraint that prevents the policy from drifting toward unsupported actions. In this study, we present Frictional Q-learning, a deep reinforcement learning algorithm for continuous control, which extends batch-constrained reinforcement learning. Our algorithm constrains the agent's action space to encourage behavior similar to that in the replay buffer, while maintaining a distance from the manifold of the orthonormal action space. The constraint preserves the simplicity of batch-constrained, and provides an intuitive physical interpretation of extrapolation error. Empirically, we further demonstrate that our algorithm is robustly trained and achieves competitive performance across standard continuous control benchmarks.
- Abstract(参考訳): 古典力学における静的摩擦と政治外RLにおける外挿誤差の類似性を引き合いに出し、それを用いて政策が不必要な行動に向かうのを防ぐ制約を定式化する。
本研究では,連続制御のための深層強化学習アルゴリズムであるFrictional Q-learningを提案する。
我々のアルゴリズムはエージェントの行動空間を制約し、正規直交作用空間の多様体からの距離を維持しながら、リプレイバッファと同様の振る舞いを奨励する。
この制約はバッチ制約の単純さを保ち、外挿エラーの直感的な物理的解釈を提供する。
実験的に、我々のアルゴリズムは堅牢に訓練され、標準の連続制御ベンチマーク間での競合性能を達成することを実証する。
関連論文リスト
- Action-Constrained Imitation Learning [12.316546911223263]
行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
論文 参考訳(メタデータ) (2025-08-20T03:19:07Z) - Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - State-Constrained Offline Reinforcement Learning [9.38848713730931]
我々は、データセットの状態分布にのみ焦点をあてた新しいフレームワークである、状態制約付きオフラインRLを紹介した。
また、D4RLベンチマークデータセット上で最先端のパフォーマンスを実現するディープラーニングアルゴリズムであるStaCQについても紹介する。
論文 参考訳(メタデータ) (2024-05-23T09:50:04Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。