論文の概要: Why Goal-Conditioned Reinforcement Learning Works: Relation to Dual Control
- arxiv url: http://arxiv.org/abs/2512.06471v1
- Date: Sat, 06 Dec 2025 15:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.374881
- Title: Why Goal-Conditioned Reinforcement Learning Works: Relation to Dual Control
- Title(参考訳): ゴールコンディション強化学習が機能する理由:デュアルコントロールとの関係
- Authors: Nathan P. Lawrence, Ali Mesbah,
- Abstract要約: 本稿では,最適制御に基づく目標条件設定の解析を行う。
より古典的で、しばしば二次的な目的と、目標条件付き報酬の最適性ギャップを導出します。
目標条件付きポリシーの利点は、非線形で不確実な環境で検証される。
- 参考スコア(独自算出の注目度): 2.2779245965633916
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Goal-conditioned reinforcement learning (RL) concerns the problem of training an agent to maximize the probability of reaching target goal states. This paper presents an analysis of the goal-conditioned setting based on optimal control. In particular, we derive an optimality gap between more classical, often quadratic, objectives and the goal-conditioned reward, elucidating the success of goal-conditioned RL and why classical ``dense'' rewards can falter. We then consider the partially observed Markov decision setting and connect state estimation to our probabilistic reward, further making the goal-conditioned reward well suited to dual control problems. The advantages of goal-conditioned policies are validated on nonlinear and uncertain environments using both RL and predictive control techniques.
- Abstract(参考訳): 目標条件強化学習(RL)は、目標目標状態に到達する確率を最大化するためにエージェントを訓練する問題に関するものである。
本稿では,最適制御に基づく目標条件設定の解析を行う。
特に、より古典的で、しばしば二次的な目的とゴール条件付き報酬の最適性ギャップを導き、ゴール条件付きRLの成功を解明する。
次に、部分的に観察されたマルコフ決定の設定を考慮し、状態推定と確率的報酬を結びつけ、さらに、目標条件付き報酬を二重制御問題によく適合させる。
目標条件付きポリシの利点は、非線形および不確実な環境において、RLと予測制御の両方を用いて検証される。
関連論文リスト
- Reinforcement Learning with Anticipation: A Hierarchical Approach for Long-Horizon Tasks [3.79187263097166]
長期の目標条件付きタスクの解決は、強化学習において重要な課題である。
Reinforcement Learning with Precipation(RLA)は、これらの制限に対処するために設計された、原則付き、潜在的にスケーラブルなフレームワークです。
RLAの主な特徴は予測モデルのトレーニングであり、これは値の幾何的一貫性の原則によって導かれる。
論文 参考訳(メタデータ) (2025-09-06T00:10:15Z) - Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
最適目的は強化学習(RL)の基本的側面である
総リターンは理想的であるが、割引リターンはその安定性のために現実的な目的である。
目的を整合させる2つの方法を提案する。
論文 参考訳(メタデータ) (2024-07-18T08:33:10Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Goal-conditioned Offline Reinforcement Learning through State Space Partitioning [9.38848713730931]
オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。
本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T14:52:53Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。