Fugu-MT 論文翻訳(概要): Swapped goal-conditioned offline reinforcement learning

論文の概要: Swapped goal-conditioned offline reinforcement learning

arxiv url: http://arxiv.org/abs/2302.08865v1
Date: Fri, 17 Feb 2023 13:22:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-20 14:54:09.128935
Title: Swapped goal-conditioned offline reinforcement learning
Title（参考訳）: 目標条件付きオフライン強化学習
Authors: Wenyan Yang, Huiling Wang, Dingding Cai, Joni Pajarinen, Joni-Kristen K\"am\"ar\"ainen
Abstract要約: 本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
参考スコア（独自算出の注目度）: 8.284193221280216
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Offline goal-conditioned reinforcement learning (GCRL) can be challenging due to overfitting to the given dataset. To generalize agents' skills outside the given dataset, we propose a goal-swapping procedure that generates additional trajectories. To alleviate the problem of noise and extrapolation errors, we present a general offline reinforcement learning method called deterministic Q-advantage policy gradient (DQAPG). In the experiments, DQAPG outperforms state-of-the-art goal-conditioned offline RL methods in a wide range of benchmark tasks, and goal-swapping further improves the test results. It is noteworthy, that the proposed method obtains good performance on the challenging dexterous in-hand manipulation tasks for which the prior methods failed.
Abstract（参考訳）: オフライン目標条件強化学習(GCRL)は、与えられたデータセットに過度に適合するため、難しい場合がある。与えられたデータセットの外でエージェントのスキルを一般化するために、追加の軌跡を生成するゴールスワッピング手順を提案する。雑音や外挿誤差の問題を緩和するため、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。実験では、DQAPGは、最先端のゴール条件付きオフラインRLメソッドを幅広いベンチマークタスクで上回り、ゴールスワッピングはテスト結果をさらに改善する。提案手法は,従来の手法が失敗した手動操作の難易度の高い課題に対して,優れた性能が得られる。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Penalizing Infeasible Actions and Reward Scaling in Reinforcement Learning with Offline Data [16.075418168983223]
オフラインデータによる強化学習はQ値外挿誤差に悩まされる。本稿では,データ範囲外におけるQ値の段階的減少を導くことを提案する。 RS-LNとPAを組み合わせることで、PARSと呼ばれる新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-07-11T17:16:02Z)
Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。 SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-26T06:35:42Z)
Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [3.5775697416994485]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。 GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文参考訳（メタデータ） (2024-12-29T16:42:30Z)
MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning [23.422157931057498]
Goal-Conditioned Weighted Supervised Learning (GCWSL) と呼ばれる最先端のアルゴリズムが、オフライン目標条件強化学習 (RL) における課題に取り組むために導入された。 GCWSLは、多様な目標達成タスクで優れたパフォーマンスを示し、シンプルで効果的で安定したソリューションを提供しています。しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。本稿では,モデルに基づく目標データ拡張(MGDA)アプローチを提案する。
論文参考訳（メタデータ） (2024-12-16T03:25:28Z)
Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)は複雑な最適化問題である。オンライン強化学習(RL)は、JSSPの許容可能なソリューションを素早く見つけることで、有望であることを示している。オフライン強化学習による分散学習(Offline-LD)について紹介する。
論文参考訳（メタデータ） (2024-09-16T15:18:10Z)
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文参考訳（メタデータ） (2024-06-11T17:59:29Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Offline Goal-Conditioned Reinforcement Learning for Safety-Critical Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-04T05:20:57Z)
Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文参考訳（メタデータ） (2024-02-11T15:23:13Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文参考訳（メタデータ） (2023-07-25T21:38:08Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
A Transferable and Automatic Tuning of Deep Reinforcement Learning for Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。 Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文参考訳（メタデータ） (2022-09-19T14:09:07Z)
C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。 E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文参考訳（メタデータ） (2021-10-22T22:05:31Z)
Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文参考訳（メタデータ） (2021-10-04T16:40:13Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。