論文の概要: DIDI: Diffusion-Guided Diversity for Offline Behavioral Generation
- arxiv url: http://arxiv.org/abs/2405.14790v1
- Date: Thu, 23 May 2024 17:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:46:53.691452
- Title: DIDI: Diffusion-Guided Diversity for Offline Behavioral Generation
- Title(参考訳): DIDI:オフライン行動生成のための拡散誘導多様性
- Authors: Jinxin Liu, Xinghong Guo, Zifeng Zhuang, Donglin Wang,
- Abstract要約: オフライン動作生成のための拡散誘導ダイバーシティ(DIDI)と呼ばれる新しい手法を提案する。
DIDIの目標は、ラベルなしオフラインデータの混合から多様なスキルセットを学ぶことである。
- 参考スコア(独自算出の注目度): 25.904918670006587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel approach called DIffusion-guided DIversity (DIDI) for offline behavioral generation. The goal of DIDI is to learn a diverse set of skills from a mixture of label-free offline data. We achieve this by leveraging diffusion probabilistic models as priors to guide the learning process and regularize the policy. By optimizing a joint objective that incorporates diversity and diffusion-guided regularization, we encourage the emergence of diverse behaviors while maintaining the similarity to the offline data. Experimental results in four decision-making domains (Push, Kitchen, Humanoid, and D4RL tasks) show that DIDI is effective in discovering diverse and discriminative skills. We also introduce skill stitching and skill interpolation, which highlight the generalist nature of the learned skill space. Further, by incorporating an extrinsic reward function, DIDI enables reward-guided behavior generation, facilitating the learning of diverse and optimal behaviors from sub-optimal data.
- Abstract(参考訳): 本稿では,ディフュージョン誘導ダイバーシティ(DIDI)と呼ばれるオフライン行動生成のための新しい手法を提案する。
DIDIの目標は、ラベルなしオフラインデータの混合から多様なスキルセットを学ぶことである。
我々は,拡散確率モデルを事前として活用し,学習プロセスの指導と政策の正規化を実現している。
多様性と拡散誘導正規化を取り入れた共同目標を最適化することにより,オフラインデータとの類似性を維持しつつ,多様な行動の出現を促す。
4つの意思決定領域(Push、Kitchen、Humanoid、D4RLタスク)の実験結果から、DIDIは多種多様な識別能力の発見に有効であることが示された。
また,学習するスキル空間の一般性を強調する,スキルステッチとスキル補間も導入する。
さらに、外部報酬関数を組み込むことで、報酬誘導行動生成を可能にし、準最適データから多様な最適な行動の学習を容易にする。
関連論文リスト
- Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - Offline Diversity Maximization Under Imitation Constraints [23.761620064055897]
教師なしスキル発見のための原則付きオフラインアルゴリズムを提案する。
私たちの主な分析的貢献は、フェンシェルの双対性、強化学習、教師なしスキル発見を結びつけることです。
標準オフラインベンチマークD4RLにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-07-21T06:12:39Z) - Generalizable Low-Resource Activity Recognition with Diverse and
Discriminative Representation Learning [24.36351102003414]
HAR(Human Activity Recognition)は、人間のセンサーの読み取りから動作パターンを特定することに焦点を当てた時系列分類タスクである。
一般化可能な低リソースHARのためのDDLearn(Diverse and Discriminative Expression Learning)という新しい手法を提案する。
平均精度は9.5%向上した。
論文 参考訳(メタデータ) (2023-05-25T08:24:22Z) - System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning [8.280943341629161]
マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
論文 参考訳(メタデータ) (2023-05-03T13:58:13Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Effective Diversity in Population Based Reinforcement Learning [38.62641968788987]
人口のすべてのメンバを同時に最適化するアプローチを導入する。
対距離を使用するのではなく、行動多様体内の全集団の体積を測定する。
我々のアルゴリズムは、オンライン学習技術を用いて、トレーニング中に多様性の度合いを適応させる。
論文 参考訳(メタデータ) (2020-02-03T10:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。