論文の概要: Prioritized offline Goal-swapping Experience Replay
- arxiv url: http://arxiv.org/abs/2302.07741v1
- Date: Wed, 15 Feb 2023 15:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:29:48.257898
- Title: Prioritized offline Goal-swapping Experience Replay
- Title(参考訳): オフラインのゴールスワッピング体験リプレイの優先順位付け
- Authors: Wenyan Yang, Joni Pajarinen, Dinging Cai, Joni K\"am\"ar\"ainen
- Abstract要約: オフライン強化学習のための優先的なゴールスワッピング体験再生(PGSER)を提案する。
実験では、PGSERは幅広いベンチマークタスクにおいて、ベースラインを大幅に改善する。
- 参考スコア(独自算出の注目度): 7.75950298251194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In goal-conditioned offline reinforcement learning, an agent learns from
previously collected data to go to an arbitrary goal. Since the offline data
only contains a finite number of trajectories, a main challenge is how to
generate more data. Goal-swapping generates additional data by switching
trajectory goals but while doing so produces a large number of invalid
trajectories. To address this issue, we propose prioritized goal-swapping
experience replay (PGSER). PGSER uses a pre-trained Q function to assign higher
priority weights to goal swapped transitions that allow reaching the goal. In
experiments, PGSER significantly improves over baselines in a wide range of
benchmark tasks, including challenging previously unsuccessful dexterous
in-hand manipulation tasks.
- Abstract(参考訳): 目標条件付きオフライン強化学習では、エージェントは以前収集したデータから任意の目標に到達するために学習する。
オフラインデータは有限個のトラジェクタしか含まないため、より多くのデータを生成する方法が主な課題である。
ゴールスワッピングは軌道目標を切り替えることで追加データを生成するが、その一方で多数の無効な軌道を生成する。
この問題に対処するため,我々はpgser(priorized goal-swapping experience replay)を提案する。
pgserは事前訓練されたq関数を使用して、目標を達成するための遷移を目標に優先する重みを割り当てる。
実験では、pgserは広範囲のベンチマークタスクにおいてベースラインよりも大幅に改善され、過去に失敗に終わったデクスタブルな手操作タスクにも挑戦する。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Prior-Free Continual Learning with Unlabeled Data in the Wild [24.14279172551939]
本稿では,新しいタスクの学習モデルを段階的に更新するPFCL法を提案する。
PFCLはタスクのアイデンティティや以前のデータを知ることなく、新しいタスクを学習する。
実験の結果,PFCL法は3つの学習シナリオすべてにおいて,忘れを著しく軽減することがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:59:56Z) - Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-02-17T13:22:40Z) - Transferability Estimation Based On Principal Gradient Expectation [68.97403769157117]
クロスタスク転送性は、自己整合性を維持しながら転送結果と互換性がある。
既存の転送可能性メトリクスは、ソースとターゲットタスクを会話することで、特定のモデルに基づいて推定される。
本稿では,タスク間の転送可能性を評価するための簡易かつ効果的な手法であるPGEを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:33:02Z) - How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via
$f$-Advantage Regression [31.400457068128585]
オフライン目標条件強化学習(GCRL)は、純粋にオフラインのデータセットから多様な目標に到達するという形で、汎用的なスキル学習を約束する。
状態占有型マッチングの観点から,新しい回帰型オフラインGCRLアルゴリズムであるGoFARを提案する。
GoFARは後続のレバーベリングを一切必要とせず、その価値とポリシーネットワークに対する非インターリーブな最適化を享受しています。
論文 参考訳(メタデータ) (2022-06-07T05:40:16Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [85.22775182688798]
この研究はAlpha-Refineと呼ばれる新しい、柔軟で正確な改良モジュールを提案する。
これにより、ベーストラッカーのボックス推定品質が大幅に向上する。
TrackingNet, LaSOT, GOT-10K, VOT 2020 ベンチマークの実験では,我々のアプローチがベーストラッカのパフォーマンスを大幅に改善し,遅延がほとんどなかった。
論文 参考訳(メタデータ) (2020-12-12T13:33:25Z) - Auxiliary Task Reweighting for Minimum-data Learning [118.69683270159108]
教師付き学習は大量のトレーニングデータを必要とし、ラベル付きデータが不足しているアプリケーションを制限する。
データ不足を補う1つの方法は、補助的なタスクを利用して、メインタスクに対する追加の監視を提供することである。
そこで本研究では,主タスクにおけるデータ要求を減らし,補助タスクを自動的に重み付けする手法を提案する。
論文 参考訳(メタデータ) (2020-10-16T08:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。