論文の概要: Prioritized offline Goal-swapping Experience Replay
- arxiv url: http://arxiv.org/abs/2302.07741v1
- Date: Wed, 15 Feb 2023 15:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:29:48.257898
- Title: Prioritized offline Goal-swapping Experience Replay
- Title(参考訳): オフラインのゴールスワッピング体験リプレイの優先順位付け
- Authors: Wenyan Yang, Joni Pajarinen, Dinging Cai, Joni K\"am\"ar\"ainen
- Abstract要約: オフライン強化学習のための優先的なゴールスワッピング体験再生(PGSER)を提案する。
実験では、PGSERは幅広いベンチマークタスクにおいて、ベースラインを大幅に改善する。
- 参考スコア(独自算出の注目度): 7.75950298251194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In goal-conditioned offline reinforcement learning, an agent learns from
previously collected data to go to an arbitrary goal. Since the offline data
only contains a finite number of trajectories, a main challenge is how to
generate more data. Goal-swapping generates additional data by switching
trajectory goals but while doing so produces a large number of invalid
trajectories. To address this issue, we propose prioritized goal-swapping
experience replay (PGSER). PGSER uses a pre-trained Q function to assign higher
priority weights to goal swapped transitions that allow reaching the goal. In
experiments, PGSER significantly improves over baselines in a wide range of
benchmark tasks, including challenging previously unsuccessful dexterous
in-hand manipulation tasks.
- Abstract(参考訳): 目標条件付きオフライン強化学習では、エージェントは以前収集したデータから任意の目標に到達するために学習する。
オフラインデータは有限個のトラジェクタしか含まないため、より多くのデータを生成する方法が主な課題である。
ゴールスワッピングは軌道目標を切り替えることで追加データを生成するが、その一方で多数の無効な軌道を生成する。
この問題に対処するため,我々はpgser(priorized goal-swapping experience replay)を提案する。
pgserは事前訓練されたq関数を使用して、目標を達成するための遷移を目標に優先する重みを割り当てる。
実験では、pgserは広範囲のベンチマークタスクにおいてベースラインよりも大幅に改善され、過去に失敗に終わったデクスタブルな手操作タスクにも挑戦する。
関連論文リスト
- Prior-Free Continual Learning with Unlabeled Data in the Wild [24.14279172551939]
本稿では,新しいタスクの学習モデルを段階的に更新するPFCL法を提案する。
PFCLはタスクのアイデンティティや以前のデータを知ることなく、新しいタスクを学習する。
実験の結果,PFCL法は3つの学習シナリオすべてにおいて,忘れを著しく軽減することがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:59:56Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs.
Continual Pre-training [19.299285312415734]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Goal-Conditioned Supervised Learning with Sub-Goal Prediction [24.172457177786523]
本稿では,目標条件付き強化学習に取り組むために,トラジェクティブ反復学習器(TraIL)を提案する。
TraILはさらに、トラジェクトリの情報を活用し、それを学習に使用してアクションとサブゴールの両方を予測する。
いくつかの一般的な問題設定では、実際の目標を予測されたTraILサブゴールに置き換えることで、エージェントはより多くの目標状態に到達することができる。
論文 参考訳(メタデータ) (2023-05-17T12:54:58Z) - Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-02-17T13:22:40Z) - Transferability Estimation Based On Principal Gradient Expectation [68.97403769157117]
クロスタスク転送性は、自己整合性を維持しながら転送結果と互換性がある。
既存の転送可能性メトリクスは、ソースとターゲットタスクを会話することで、特定のモデルに基づいて推定される。
本稿では,タスク間の転送可能性を評価するための簡易かつ効果的な手法であるPGEを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:33:02Z) - How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via
$f$-Advantage Regression [31.400457068128585]
オフライン目標条件強化学習(GCRL)は、純粋にオフラインのデータセットから多様な目標に到達するという形で、汎用的なスキル学習を約束する。
状態占有型マッチングの観点から,新しい回帰型オフラインGCRLアルゴリズムであるGoFARを提案する。
GoFARは後続のレバーベリングを一切必要とせず、その価値とポリシーネットワークに対する非インターリーブな最適化を享受しています。
論文 参考訳(メタデータ) (2022-06-07T05:40:16Z) - Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative
Priors [59.93972277761501]
我々は,教師付きあるいは自己指導型アプローチにより,ソースタスクから高い情報的後部を学習できることを実証した。
このシンプルなモジュラーアプローチは、様々な下流の分類とセグメンテーションタスクにおいて、大幅なパフォーマンス向上と、よりデータ効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2022-05-20T16:19:30Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [85.22775182688798]
この研究はAlpha-Refineと呼ばれる新しい、柔軟で正確な改良モジュールを提案する。
これにより、ベーストラッカーのボックス推定品質が大幅に向上する。
TrackingNet, LaSOT, GOT-10K, VOT 2020 ベンチマークの実験では,我々のアプローチがベーストラッカのパフォーマンスを大幅に改善し,遅延がほとんどなかった。
論文 参考訳(メタデータ) (2020-12-12T13:33:25Z) - Auxiliary Task Reweighting for Minimum-data Learning [118.69683270159108]
教師付き学習は大量のトレーニングデータを必要とし、ラベル付きデータが不足しているアプリケーションを制限する。
データ不足を補う1つの方法は、補助的なタスクを利用して、メインタスクに対する追加の監視を提供することである。
そこで本研究では,主タスクにおけるデータ要求を減らし,補助タスクを自動的に重み付けする手法を提案する。
論文 参考訳(メタデータ) (2020-10-16T08:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。