論文の概要: Dual-Force: Enhanced Offline Diversity Maximization under Imitation Constraints
- arxiv url: http://arxiv.org/abs/2501.04426v1
- Date: Wed, 08 Jan 2025 11:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:22.448264
- Title: Dual-Force: Enhanced Offline Diversity Maximization under Imitation Constraints
- Title(参考訳): Dual-Force:Imitation Constraint下でのオフライン多様性の最大化
- Authors: Pavel Kolev, Marin Vlastelica, Georg Martius,
- Abstract要約: 本稿では,Van der Waals (VdW) 力のアルゴリズムに基づいて,多様性を高める新しいオフラインアルゴリズムを提案する。
我々のアルゴリズムは、トレーニング中に遭遇するすべてのスキルをゼロショットでリコールし、事前の作業で学んだスキルセットを大幅に拡張する。
- 参考スコア(独自算出の注目度): 24.544586300399843
- License:
- Abstract: While many algorithms for diversity maximization under imitation constraints are online in nature, many applications require offline algorithms without environment interactions. Tackling this problem in the offline setting, however, presents significant challenges that require non-trivial, multi-stage optimization processes with non-stationary rewards. In this work, we present a novel offline algorithm that enhances diversity using an objective based on Van der Waals (VdW) force and successor features, and eliminates the need to learn a previously used skill discriminator. Moreover, by conditioning the value function and policy on a pre-trained Functional Reward Encoding (FRE), our method allows for better handling of non-stationary rewards and provides zero-shot recall of all skills encountered during training, significantly expanding the set of skills learned in prior work. Consequently, our algorithm benefits from receiving a consistently strong diversity signal (VdW), and enjoys more stable and efficient training. We demonstrate the effectiveness of our method in generating diverse skills for two robotic tasks in simulation: locomotion of a quadruped and local navigation with obstacle traversal.
- Abstract(参考訳): 模倣制約下での多様性最大化のための多くのアルゴリズムは本質的にオンラインであるが、多くのアプリケーションは環境相互作用を伴わないオフラインアルゴリズムを必要とする。
しかし、オフライン環境でこの問題に取り組むことは、非定常的な報酬を伴う非自明な多段階最適化プロセスを必要とする重要な課題を示す。
本稿では,Van der Waals(VdW)力と後継機能に基づく目的を用いて,多様性を高める新しいオフラインアルゴリズムを提案する。
さらに、事前訓練された関数リワード符号化(FRE)に値関数とポリシーを条件付けすることにより、非定常報酬の処理をより良くし、トレーニング中に遭遇するすべてのスキルのゼロショットリコールを可能にし、事前の作業で学んだスキルセットを大幅に拡張する。
その結果、アルゴリズムは一貫して強い多様性信号(VdW)を受け取ることの恩恵を受け、より安定かつ効率的なトレーニングを楽しむことができる。
本研究では,2つのロボット作業の多様なスキルを生み出す手法の有効性をシミュレーションで示す。
関連論文リスト
- Aerial Reliable Collaborative Communications for Terrestrial Mobile Users via Evolutionary Multi-Objective Deep Reinforcement Learning [59.660724802286865]
無人航空機(UAV)は、地上通信を改善するための航空基地局(BS)として登場した。
この作業では、UAV対応仮想アンテナアレイによる協調ビームフォーミングを使用して、UAVから地上モバイルユーザへの伝送性能を向上させる。
論文 参考訳(メタデータ) (2025-02-09T09:15:47Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Learning Diverse Skills for Local Navigation under Multi-constraint
Optimality [27.310655303502305]
本研究では,品質と多様性のトレードオフについて,制約付き最適化の観点から考察する。
我々は、異なる報酬によって定義される値関数に制約を課しながら、多様なポリシーを得ることができることを示す。
訓練されたポリシーは、本物の12-DoFの四足歩行ロボットSolo12によく伝達される。
論文 参考訳(メタデータ) (2023-10-03T21:21:21Z) - Offline Diversity Maximization Under Imitation Constraints [23.761620064055897]
教師なしスキル発見のための原則付きオフラインアルゴリズムを提案する。
私たちの主な分析的貢献は、フェンシェルの双対性、強化学習、教師なしスキル発見を結びつけることです。
標準オフラインベンチマークD4RLにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-07-21T06:12:39Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。