論文の概要: C-Learning: Learning to Achieve Goals via Recursive Classification
- arxiv url: http://arxiv.org/abs/2011.08909v2
- Date: Mon, 19 Apr 2021 18:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:53:17.309081
- Title: C-Learning: Learning to Achieve Goals via Recursive Classification
- Title(参考訳): C-Learning: 再帰的分類による目標達成の学習
- Authors: Benjamin Eysenbach, Ruslan Salakhutdinov, Sergey Levine
- Abstract要約: 自律エージェントの将来の状態分布を予測・制御する問題について検討する。
我々の研究は、密度推定としてゴール条件付きRLの基礎を定めている。
- 参考スコア(独自算出の注目度): 163.7610618571879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of predicting and controlling the future state
distribution of an autonomous agent. This problem, which can be viewed as a
reframing of goal-conditioned reinforcement learning (RL), is centered around
learning a conditional probability density function over future states. Instead
of directly estimating this density function, we indirectly estimate this
density function by training a classifier to predict whether an observation
comes from the future. Via Bayes' rule, predictions from our classifier can be
transformed into predictions over future states. Importantly, an off-policy
variant of our algorithm allows us to predict the future state distribution of
a new policy, without collecting new experience. This variant allows us to
optimize functionals of a policy's future state distribution, such as the
density of reaching a particular goal state. While conceptually similar to
Q-learning, our work lays a principled foundation for goal-conditioned RL as
density estimation, providing justification for goal-conditioned methods used
in prior work. This foundation makes hypotheses about Q-learning, including the
optimal goal-sampling ratio, which we confirm experimentally. Moreover, our
proposed method is competitive with prior goal-conditioned RL methods.
- Abstract(参考訳): 自律エージェントの将来の状態分布を予測・制御する問題について検討する。
この問題は、目標条件強化学習(RL)のリフレーミングと見なすことができ、将来の状態における条件付き確率密度関数の学習を中心にしている。
この密度関数を直接推定する代わりに、この密度関数を分類器の訓練により間接的に推定し、観測が未来から来るかどうかを予測する。
ベイズの法則により、分類器からの予測は将来の状態の予測に変換できる。
重要なことに、このアルゴリズムのオフポリシー変種は、新しい経験を収集することなく、新しいポリシーの将来の状態分布を予測することができる。
この変異により、特定の目標状態に到達する密度など、ポリシーの将来の状態分布の機能を最適化することができます。
概念的にはq-learningと似ているが、我々の研究は、密度推定として目標条件付きrlの原理的基礎を定め、以前の作業で使用される目標条件付きメソッドの正当化を提供する。
この基礎は, 最適目標サンプリング率を含むq-learningに関する仮説を立て, 実験的に確認する。
さらに,提案手法は目標条件付きRL法と競合する。
関連論文リスト
- Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Self-training via Metric Learning for Source-Free Domain Adaptation of Semantic Segmentation [3.1460691683829825]
教師なしのドメイン適応手法は、事前訓練されたソースドメインモデルとラベルなしのターゲットドメインデータを用いて、ターゲットドメインのモデルをトレーニングすることを目的としている。
従来の手法では、通常擬似ラベルによる自己学習が用いられており、予測信頼度に基づいてしきい値付けされることが多い。
本稿では,教師ネットワークからの全ての予測を用いて,学生ネットワークを訓練する平均教師モデルを導入することによって,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-08T12:20:35Z) - Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach [21.44737454610142]
メタ強化学習(メタRL)では、エージェントは、同じタスク分布から引き出された新しいタスクの迅速な解決方法のセットから学習する。
この研究で検討する質問は、高い確率で最適な行動を保証するために、どの程度のトレーニングタスクが必要かということだ。
本研究では,タスク分布を直接学習し,密度推定手法を用いて,学習したタスク分布に関するポリシーを訓練するアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:32:19Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。