論文の概要: Confounding Robust Continuous Control via Automatic Reward Shaping
- arxiv url: http://arxiv.org/abs/2602.10305v1
- Date: Tue, 10 Feb 2026 21:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.287457
- Title: Confounding Robust Continuous Control via Automatic Reward Shaping
- Title(参考訳): 自動逆整形によるロバスト連続制御
- Authors: Mateo Juliani, Mingxuan Li, Elias Bareinboim,
- Abstract要約: オフラインデータセットから連続制御問題に対する報酬形成機能を自動的に学習することを提案する。
提案手法は,最近提案された因果ベルマン方程式に基づいて,最適状態値の厳密な上界を学習する。
私たちの研究は、因果的観点から堅牢な継続的制御を分離する第一歩です。
- 参考スコア(独自算出の注目度): 48.93769483870838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward shaping has been applied widely to accelerate Reinforcement Learning (RL) agents' training. However, a principled way of designing effective reward shaping functions, especially for complex continuous control problems, remains largely under-explained. In this work, we propose to automatically learn a reward shaping function for continuous control problems from offline datasets, potentially contaminated by unobserved confounding variables. Specifically, our method builds upon the recently proposed causal Bellman equation to learn a tight upper bound on the optimal state values, which is then used as the potentials in the Potential-Based Reward Shaping (PBRS) framework. Our proposed reward shaping algorithm is tested with Soft-Actor-Critic (SAC) on multiple commonly used continuous control benchmarks and exhibits strong performance guarantees under unobserved confounders. More broadly, our work marks a solid first step towards confounding robust continuous control from a causal perspective. Code for training our reward shaping functions can be found at https://github.com/mateojuliani/confounding_robust_cont_control.
- Abstract(参考訳): Reinforcement Learning(RL)エージェントのトレーニングを加速するために、Reward Shapingが広く採用されている。
しかし、特に複雑な連続制御問題に対して、効果的な報酬形成関数を設計する原則的な方法はほとんど説明されていない。
本研究では,オフラインデータセットから連続制御問題に対する報酬生成関数を自動的に学習する手法を提案する。
具体的には、最近提案された因果ベルマン方程式に基づいて、最適状態値の厳密な上限を学習し、ポテンシャルベース逆整形(PBRS)フレームワークのポテンシャルとして利用する。
提案アルゴリズムは,複数の一般的な連続制御ベンチマーク上でソフトアクター・クライブ(SAC)を用いて検証し,非保守的共同設立者の下で高い性能保証を示す。
より広範に、私たちの研究は、因果的な視点から堅牢な継続的制御を確立するための、確固たる第一歩です。
報酬形成関数のトレーニングコードはhttps://github.com/mateojuliani/confounding_robust_cont_controlにある。
関連論文リスト
- GB-DQN: Gradient Boosted DQN Models for Non-stationary Reinforcement Learning [0.0]
逐次残差学習によるモデルドリフトに対応する適応型アンサンブル法であるemphGradient-Boosted Deep Q-Networks (GB-DQN)を提案する。
GB-DQNは、単一のQ-ネットワークを再訓練する代わりに、新たな学習者がドリフト後の現在のアンサンブルのベルマン残差を近似するように訓練された付加的なアンサンブルを構築する。
論文 参考訳(メタデータ) (2025-12-18T19:53:50Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Deep Q-learning: a robust control approach [4.125187280299247]
ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-01-21T09:47:34Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。