論文の概要: C-Learning: Horizon-Aware Cumulative Accessibility Estimation
- arxiv url: http://arxiv.org/abs/2011.12363v3
- Date: Tue, 26 Jan 2021 03:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:08:27.813263
- Title: C-Learning: Horizon-Aware Cumulative Accessibility Estimation
- Title(参考訳): C-ラーニング:水平型累積アクセシビリティ推定
- Authors: Panteha Naderian, Gabriel Loaiza-Ganem, Harry J. Braviner, Anthony L.
Caterini, Jesse C. Cresswell, Tong Li, Animesh Garg
- Abstract要約: 本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 29.588146016880284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-goal reaching is an important problem in reinforcement learning needed
to achieve algorithmic generalization. Despite recent advances in this field,
current algorithms suffer from three major challenges: high sample complexity,
learning only a single way of reaching the goals, and difficulties in solving
complex motion planning tasks. In order to address these limitations, we
introduce the concept of cumulative accessibility functions, which measure the
reachability of a goal from a given state within a specified horizon. We show
that these functions obey a recurrence relation, which enables learning from
offline interactions. We also prove that optimal cumulative accessibility
functions are monotonic in the planning horizon. Additionally, our method can
trade off speed and reliability in goal-reaching by suggesting multiple paths
to a single goal depending on the provided horizon. We evaluate our approach on
a set of multi-goal discrete and continuous control tasks. We show that our
method outperforms state-of-the-art goal-reaching algorithms in success rate,
sample complexity, and path optimality. Our code is available at
https://github.com/layer6ai-labs/CAE, and additional visualizations can be
found at https://sites.google.com/view/learning-cae/.
- Abstract(参考訳): 多ゴール到達はアルゴリズムの一般化を達成するために必要な強化学習において重要な問題である。
この分野の最近の進歩にもかかわらず、現在のアルゴリズムは、高いサンプル複雑性、目標を達成するための単一の方法のみを学ぶこと、複雑なモーションプランニングタスクを解決することの難しさの3つの大きな課題に苦しめられている。
これらの制約に対処するために、所定の地平線内の所定の状態からゴールの到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
また,最適累積アクセシビリティ関数が計画方針において単調であることを証明する。
さらに,提案手法では,与えられた地平線に応じて複数の経路を1つの目標に提案することで,目標到達時の速度と信頼性をトレードオフできる。
我々は,複数ゴールの離散的かつ連続的な制御タスクに対するアプローチを評価する。
提案手法は, 成功率, サンプル複雑性, 経路最適性において, 最先端のゴール取得アルゴリズムより優れていることを示す。
私たちのコードはhttps://github.com/layer6ai-labs/CAEで利用可能です。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Deep Reinforcement Learning for Complex Manipulation Tasks with Sparse
Feedback [0.0]
Hindsight Experience Replay (HER) はマルチゴール強化学習アルゴリズムである。
本稿では,既存のHERアルゴリズムに基づく3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-12T07:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。