Fugu-MT 論文翻訳(概要): Prioritized offline Goal-swapping Experience Replay

論文の概要: Prioritized offline Goal-swapping Experience Replay

arxiv url: http://arxiv.org/abs/2302.07741v1
Date: Wed, 15 Feb 2023 15:39:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-16 14:29:48.257898
Title: Prioritized offline Goal-swapping Experience Replay
Title（参考訳）: オフラインのゴールスワッピング体験リプレイの優先順位付け
Authors: Wenyan Yang, Joni Pajarinen, Dinging Cai, Joni K\"am\"ar\"ainen
Abstract要約: オフライン強化学習のための優先的なゴールスワッピング体験再生(PGSER)を提案する。実験では、PGSERは幅広いベンチマークタスクにおいて、ベースラインを大幅に改善する。
参考スコア（独自算出の注目度）: 7.75950298251194
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In goal-conditioned offline reinforcement learning, an agent learns from previously collected data to go to an arbitrary goal. Since the offline data only contains a finite number of trajectories, a main challenge is how to generate more data. Goal-swapping generates additional data by switching trajectory goals but while doing so produces a large number of invalid trajectories. To address this issue, we propose prioritized goal-swapping experience replay (PGSER). PGSER uses a pre-trained Q function to assign higher priority weights to goal swapped transitions that allow reaching the goal. In experiments, PGSER significantly improves over baselines in a wide range of benchmark tasks, including challenging previously unsuccessful dexterous in-hand manipulation tasks.
Abstract（参考訳）: 目標条件付きオフライン強化学習では、エージェントは以前収集したデータから任意の目標に到達するために学習する。オフラインデータは有限個のトラジェクタしか含まないため、より多くのデータを生成する方法が主な課題である。ゴールスワッピングは軌道目標を切り替えることで追加データを生成するが、その一方で多数の無効な軌道を生成する。この問題に対処するため,我々はpgser(priorized goal-swapping experience replay)を提案する。 pgserは事前訓練されたq関数を使用して、目標を達成するための遷移を目標に優先する重みを割り当てる。実験では、pgserは広範囲のベンチマークタスクにおいてベースラインよりも大幅に改善され、過去に失敗に終わったデクスタブルな手操作タスクにも挑戦する。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning [23.422157931057498]
Goal-Conditioned Weighted Supervised Learning (GCWSL) と呼ばれる最先端のアルゴリズムが、オフライン目標条件強化学習 (RL) における課題に取り組むために導入された。 GCWSLは、多様な目標達成タスクで優れたパフォーマンスを示し、シンプルで効果的で安定したソリューションを提供しています。しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。本稿では,モデルに基づく目標データ拡張(MGDA)アプローチを提案する。
論文参考訳（メタデータ） (2024-12-16T03:25:28Z)
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Prior-Free Continual Learning with Unlabeled Data in the Wild [24.14279172551939]
本稿では,新しいタスクの学習モデルを段階的に更新するPFCL法を提案する。 PFCLはタスクのアイデンティティや以前のデータを知ることなく、新しいタスクを学習する。実験の結果,PFCL法は3つの学習シナリオすべてにおいて,忘れを著しく軽減することがわかった。
論文参考訳（メタデータ） (2023-10-16T13:59:56Z)
Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文参考訳（メタデータ） (2023-02-17T13:22:40Z)
Transferability Estimation Based On Principal Gradient Expectation [68.97403769157117]
クロスタスク転送性は、自己整合性を維持しながら転送結果と互換性がある。既存の転送可能性メトリクスは、ソースとターゲットタスクを会話することで、特定のモデルに基づいて推定される。本稿では,タスク間の転送可能性を評価するための簡易かつ効果的な手法であるPGEを提案する。
論文参考訳（メタデータ） (2022-11-29T15:33:02Z)
How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via $f$-Advantage Regression [31.400457068128585]
オフライン目標条件強化学習(GCRL)は、純粋にオフラインのデータセットから多様な目標に到達するという形で、汎用的なスキル学習を約束する。状態占有型マッチングの観点から,新しい回帰型オフラインGCRLアルゴリズムであるGoFARを提案する。 GoFARは後続のレバーベリングを一切必要とせず、その価値とポリシーネットワークに対する非インターリーブな最適化を享受しています。
論文参考訳（メタデータ） (2022-06-07T05:40:16Z)
C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。 E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文参考訳（メタデータ） (2021-10-22T22:05:31Z)
Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation [85.22775182688798]
この研究はAlpha-Refineと呼ばれる新しい、柔軟で正確な改良モジュールを提案する。これにより、ベーストラッカーのボックス推定品質が大幅に向上する。 TrackingNet, LaSOT, GOT-10K, VOT 2020 ベンチマークの実験では,我々のアプローチがベーストラッカのパフォーマンスを大幅に改善し,遅延がほとんどなかった。
論文参考訳（メタデータ） (2020-12-12T13:33:25Z)
Auxiliary Task Reweighting for Minimum-data Learning [118.69683270159108]
教師付き学習は大量のトレーニングデータを必要とし、ラベル付きデータが不足しているアプリケーションを制限する。データ不足を補う1つの方法は、補助的なタスクを利用して、メインタスクに対する追加の監視を提供することである。そこで本研究では,主タスクにおけるデータ要求を減らし,補助タスクを自動的に重み付けする手法を提案する。
論文参考訳（メタデータ） (2020-10-16T08:45:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。