論文の概要: AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies
- arxiv url: http://arxiv.org/abs/2402.04292v1
- Date: Tue, 6 Feb 2024 10:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:33:12.014277
- Title: AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies
- Title(参考訳): AdaFlow: 可変適応型フローベースポリシによる模倣学習
- Authors: Xixi Hu, Bo Liu, Xingchao Liu and Qiang Liu
- Abstract要約: 本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す
AdaFlowは、成功率、行動多様性、推論速度など、すべての次元で高いパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 22.967735080818006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based imitation learning improves Behavioral Cloning (BC) on
multi-modal decision-making, but comes at the cost of significantly slower
inference due to the recursion in the diffusion process. It urges us to design
efficient policy generators while keeping the ability to generate diverse
actions. To address this challenge, we propose AdaFlow, an imitation learning
framework based on flow-based generative modeling. AdaFlow represents the
policy with state-conditioned ordinary differential equations (ODEs), which are
known as probability flows. We reveal an intriguing connection between the
conditional variance of their training loss and the discretization error of the
ODEs. With this insight, we propose a variance-adaptive ODE solver that can
adjust its step size in the inference stage, making AdaFlow an adaptive
decision-maker, offering rapid inference without sacrificing diversity.
Interestingly, it automatically reduces to a one-step generator when the action
distribution is uni-modal. Our comprehensive empirical evaluation shows that
AdaFlow achieves high performance across all dimensions, including success
rate, behavioral diversity, and inference speed. The code is available at
https://github.com/hxixixh/AdaFlow
- Abstract(参考訳): 拡散に基づく模倣学習は、多モーダル意思決定における行動クローニング(BC)を改善するが、拡散過程の再帰により推論が著しく遅くなる。
多様なアクションを生成する能力を維持しながら、効率的なポリシージェネレータを設計するよう促します。
そこで本研究では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
adaflowは、確率フローとして知られる状態条件付き常微分方程式(odes)でポリシーを表す。
トレーニング損失の条件分散とODEの離散化誤差との間の興味深い関係を明らかにする。
そこで本研究では,AdaFlowを適応型意思決定器とし,多様性を犠牲にすることなく高速な推論を実現する分散適応ODEソルバを提案する。
興味深いことに、アクション分布がユニモーダルである場合には、自動的にワンステップジェネレータに還元される。
包括的実証評価の結果,AdaFlowは成功率,行動多様性,推論速度など,すべての領域で高いパフォーマンスを実現していることがわかった。
コードはhttps://github.com/hxixh/AdaFlowで入手できる。
関連論文リスト
- PaddingFlow: Improving Normalizing Flows with Padding-Dimensional Noise [5.352677991834813]
パディングフロー(PaddingFlow)は,パディング次元雑音による正規化フローを改善する新しいデクエント化法である。
PaddingFlowは簡単に実装でき、計算的に安価で、様々なタスクに広く適合し、データのバイアスのない推定サンプルを生成する。
論文 参考訳(メタデータ) (2024-03-13T03:28:39Z) - D-Flow: Differentiating through Flows for Controlled Generation [40.05986937727134]
フローを微分することで生成プロセスを制御するフレームワークであるD-Flowを紹介する。
我々は、ガウス確率パスで訓練された拡散/FMモデルに対して、生成過程を微分することで、データ多様体の勾配を予測できるというキーとなる観察によって、この枠組みを動機付けている。
我々は,画像と音声の逆問題や条件分子生成など,線形および非線形に制御された生成問題に対する枠組みを検証する。
論文 参考訳(メタデータ) (2024-02-21T18:56:03Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs [23.030972042695275]
拡散ODEの最大誤差推定のためのいくつかの改良手法を提案する。
トレーニングのために,速度パラメータ化を提案し,より高速な収束のための分散低減手法を探索する。
評価のために,拡散 ODE に存在する訓練・評価のギャップを埋めるために,新しい訓練自由トラクト正規化法を提案する。
論文 参考訳(メタデータ) (2023-05-06T05:21:24Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Flow Network based Generative Models for Non-Iterative Diverse Candidate
Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。
本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。
提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文 参考訳(メタデータ) (2021-06-08T14:21:10Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。