Fugu-MT 論文翻訳(概要): Generating Behaviorally Diverse Policies with Latent Diffusion Models

論文の概要: Generating Behaviorally Diverse Policies with Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2305.18738v1
Date: Tue, 30 May 2023 04:22:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 18:19:07.010532
Title: Generating Behaviorally Diverse Policies with Latent Diffusion Models
Title（参考訳）: 潜時拡散モデルを用いた行動多元性ポリシーの生成
Authors: Shashank Hegde, Sumeet Batra, K. R. Zentner, Gaurav S. Sukhatme
Abstract要約: 本稿では,拡散モデルを用いて,政策パラメータ上の1つの生成モデルにアーカイブを蒸留する。提案手法は,元の報酬の98%,オリジナルカバレッジの89%を回収しながら,圧縮比が13倍となることを示す。
参考スコア（独自算出の注目度）: 9.294307711393687
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in Quality Diversity Reinforcement Learning (QD-RL) has enabled learning a collection of behaviorally diverse, high performing policies. However, these methods typically involve storing thousands of policies, which results in high space-complexity and poor scaling to additional behaviors. Condensing the archive into a single model while retaining the performance and coverage of the original collection of policies has proved challenging. In this work, we propose using diffusion models to distill the archive into a single generative model over policy parameters. We show that our method achieves a compression ratio of 13x while recovering 98% of the original rewards and 89% of the original coverage. Further, the conditioning mechanism of diffusion models allows for flexibly selecting and sequencing behaviors, including using language. Project website: https://sites.google.com/view/policydiffusion/home
Abstract（参考訳）: 近年のQD-RL(Quality Diversity Reinforcement Learning)の進歩により,行動学的に多様な高パフォーマンスな政策の収集が可能となった。しかし、これらの方法は典型的には数千のポリシーを格納し、結果として高い空間の複雑さと付加的な振る舞いへのスケーリングの貧弱さをもたらす。オリジナルのポリシーコレクションのパフォーマンスとカバレッジを維持しながら、アーカイブを単一のモデルに集約することは、非常に難しい。本研究では,拡散モデルを用いて,政策パラメータ上の単一の生成モデルにアーカイブを蒸留する手法を提案する。提案手法は,元の報酬の98%,オリジナルカバレッジの89%を回収しながら,圧縮比が13倍となることを示す。さらに、拡散モデルのコンディショニング機構により、言語を含む動作を柔軟に選択・シーケンシングすることができる。プロジェクトウェブサイト: https://sites.google.com/view/policydiffusion/home

関連論文リスト

Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文参考訳（メタデータ） (2025-05-26T03:42:20Z)
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文参考訳（メタデータ） (2025-02-03T14:20:19Z)
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文参考訳（メタデータ） (2024-08-15T16:47:59Z)
Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。 DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文参考訳（メタデータ） (2024-06-02T09:32:28Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance [65.5618804029422]
これまでの研究は、明示的な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。実世界の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。提案手法は,既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合する。
論文参考訳（メタデータ） (2023-09-19T17:51:33Z)
Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T14:14:11Z)
Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文参考訳（メタデータ） (2022-09-29T04:36:23Z)
Enhancing Targeted Attack Transferability via Diversified Weight Pruning [0.3222802562733786]
悪意のある攻撃者は、画像に人間の知覚できないノイズを与えることによって、標的となる敵の例を生成することができる。クロスモデル転送可能な敵の例では、モデル情報が攻撃者から秘密にされている場合でも、ニューラルネットワークの脆弱性は残る。近年の研究では, エンサンブル法の有効性が示されている。
論文参考訳（メタデータ） (2022-08-18T07:25:48Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文参考訳（メタデータ） (2022-04-10T11:38:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。