Fugu-MT 論文翻訳(概要): Robust Policy Learning via Offline Skill Diffusion

論文の概要: Robust Policy Learning via Offline Skill Diffusion

arxiv url: http://arxiv.org/abs/2403.00225v3
Date: Thu, 22 Aug 2024 04:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 19:35:21.520239
Title: Robust Policy Learning via Offline Skill Diffusion
Title（参考訳）: オフラインスキル拡散によるロバスト政策学習
Authors: Woo Kyung Kim, Minjong Yoo, Honguk Woo,
Abstract要約: 本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。 DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
参考スコア（独自算出の注目度）: 6.876580618014666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Skill-based reinforcement learning (RL) approaches have shown considerable promise, especially in solving long-horizon tasks via hierarchical structures. These skills, learned task-agnostically from offline datasets, can accelerate the policy learning process for new tasks. Yet, the application of these skills in different domains remains restricted due to their inherent dependency on the datasets, which poses a challenge when attempting to learn a skill-based policy via RL for a target domain different from the datasets' domains. In this paper, we present a novel offline skill learning framework DuSkill which employs a guided Diffusion model to generate versatile skills extended from the limited skills in datasets, thereby enhancing the robustness of policy learning for tasks in different domains. Specifically, we devise a guided diffusion-based skill decoder in conjunction with the hierarchical encoding to disentangle the skill embedding space into two distinct representations, one for encapsulating domain-invariant behaviors and the other for delineating the factors that induce domain variations in the behaviors. Our DuSkill framework enhances the diversity of skills learned offline, thus enabling to accelerate the learning procedure of high-level policies for different domains. Through experiments, we show that DuSkill outperforms other skill-based imitation learning and RL algorithms for several long-horizon tasks, demonstrating its benefits in few-shot imitation and online RL.
Abstract（参考訳）: スキルベース強化学習(RL)アプローチは,特に階層構造による長期タスクの解決において,大きな可能性を秘めている。これらのスキルは、オフラインデータセットからタスク非依存に学習され、新しいタスクのポリシー学習プロセスを加速することができる。しかし、これらのスキルを異なるドメインに適用することは、データセットに固有の依存関係があるため制限されているため、データセットのドメインとは異なるターゲットドメインに対してRLを介してスキルベースのポリシーを学習しようとする場合、課題となる。本稿では,データセットの限られたスキルから拡張された多目的スキルを生成するためのガイド付き拡散モデルを用いて,新しいオフラインスキル学習フレームワークDuSkillを提案する。具体的には、階層的エンコーディングと連動して、ドメイン不変の振る舞いをカプセル化するための2つの異なる表現と、ドメイン変動を誘導する要因を記述するための2つの異なる表現に、スキル埋め込み空間を分散させる。我々のDuSkillフレームワークはオフラインで学んだスキルの多様性を高め、異なるドメインの高レベルポリシーの学習手順を高速化する。実験により、DuSkillは他のスキルベースの模倣学習やRLアルゴリズムよりも優れており、その利点を数発の模倣やオンラインRLで示している。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Dual-Force: Enhanced Offline Diversity Maximization under Imitation Constraints [24.544586300399843]
本稿では,Van der Waals (VdW) 力のアルゴリズムに基づいて,多様性を高める新しいオフラインアルゴリズムを提案する。我々のアルゴリズムは、トレーニング中に遭遇するすべてのスキルをゼロショットでリコールし、事前の作業で学んだスキルセットを大幅に拡張する。
論文参考訳（メタデータ） (2025-01-08T11:20:48Z)
Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning [11.790581500542439]
多様なオフラインデータセットを持つ強化学習(RL)は、複数のタスクの関係を活用する利点がある。異なる品質の行動ポリシーによって生成される異種データセットに対して,スキルベースのマルチタスクRL手法を提案する。我々のマルチタスクオフラインRLアプローチは、異なる品質データセットの混合構成に対して堅牢であることを示す。
論文参考訳（メタデータ） (2024-08-28T07:36:20Z)
Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文参考訳（メタデータ） (2024-03-11T17:49:18Z)
CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文参考訳（メタデータ） (2023-09-07T19:44:27Z)
Granger Causal Interaction Skill Chains [35.143372688036685]
強化学習(Reinforcement Learning, RL)は複雑なタスクの学習方針において有望な結果を示してきたが、しばしばサンプル効率の低下と限られた伝達性に悩まされる。このアルゴリズムは、ドメイン内の制御性に着目し、高い制御を許す少数のタスクに依存しないスキルを識別する。また、一般的なRLベンチマークであるBreakoutの変種を用いて、COInSが学習したスキルの伝達性を実証し、標準のRLベースラインと比較してサンプル効率と最終性能を2～3倍改善したことを示す。
論文参考訳（メタデータ） (2023-06-15T21:06:54Z)
Neuroevolution is a Competitive Alternative to Reinforcement Learning for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文参考訳（メタデータ） (2022-10-06T11:06:39Z)
Latent Plans for Task-Agnostic Offline Reinforcement Learning [32.938030244921755]
本研究では,高次元カメラ観測からタスク非依存のロングホライゾンポリシーを学習するための新しい階層的アプローチを提案する。我々の定式化によって、未確認のスキルの組み合わせを生産し、潜伏したスキルを"ステッチ"することで、時間的に拡張された目標を達成することが可能であることが示される。実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。
論文参考訳（メタデータ） (2022-09-19T12:27:15Z)
Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文参考訳（メタデータ） (2022-04-08T03:37:56Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Learning Transferable Motor Skills with Hierarchical Latent Mixture Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文参考訳（メタデータ） (2021-12-09T17:37:14Z)
Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。 KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文参考訳（メタデータ） (2020-10-15T03:26:47Z)
A Neural Dirichlet Process Mixture Model for Task-Free Continual Learning [48.87397222244402]
タスクフリー連続学習のための拡張型アプローチを提案する。我々のモデルは、識別的タスクと生成的タスクの両方に対してタスクフリー連続学習を成功させる。
論文参考訳（メタデータ） (2020-01-03T02:07:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。