論文の概要: AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies
- arxiv url: http://arxiv.org/abs/2402.04292v1
- Date: Tue, 6 Feb 2024 10:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:33:12.014277
- Title: AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies
- Title(参考訳): AdaFlow: 可変適応型フローベースポリシによる模倣学習
- Authors: Xixi Hu, Bo Liu, Xingchao Liu and Qiang Liu
- Abstract要約: 本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す
AdaFlowは、成功率、行動多様性、推論速度など、すべての次元で高いパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 22.967735080818006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based imitation learning improves Behavioral Cloning (BC) on
multi-modal decision-making, but comes at the cost of significantly slower
inference due to the recursion in the diffusion process. It urges us to design
efficient policy generators while keeping the ability to generate diverse
actions. To address this challenge, we propose AdaFlow, an imitation learning
framework based on flow-based generative modeling. AdaFlow represents the
policy with state-conditioned ordinary differential equations (ODEs), which are
known as probability flows. We reveal an intriguing connection between the
conditional variance of their training loss and the discretization error of the
ODEs. With this insight, we propose a variance-adaptive ODE solver that can
adjust its step size in the inference stage, making AdaFlow an adaptive
decision-maker, offering rapid inference without sacrificing diversity.
Interestingly, it automatically reduces to a one-step generator when the action
distribution is uni-modal. Our comprehensive empirical evaluation shows that
AdaFlow achieves high performance across all dimensions, including success
rate, behavioral diversity, and inference speed. The code is available at
https://github.com/hxixixh/AdaFlow
- Abstract(参考訳): 拡散に基づく模倣学習は、多モーダル意思決定における行動クローニング(BC)を改善するが、拡散過程の再帰により推論が著しく遅くなる。
多様なアクションを生成する能力を維持しながら、効率的なポリシージェネレータを設計するよう促します。
そこで本研究では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
adaflowは、確率フローとして知られる状態条件付き常微分方程式(odes)でポリシーを表す。
トレーニング損失の条件分散とODEの離散化誤差との間の興味深い関係を明らかにする。
そこで本研究では,AdaFlowを適応型意思決定器とし,多様性を犠牲にすることなく高速な推論を実現する分散適応ODEソルバを提案する。
興味深いことに、アクション分布がユニモーダルである場合には、自動的にワンステップジェネレータに還元される。
包括的実証評価の結果,AdaFlowは成功率,行動多様性,推論速度など,すべての領域で高いパフォーマンスを実現していることがわかった。
コードはhttps://github.com/hxixh/AdaFlowで入手できる。
関連論文リスト
- DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation [10.645244994430483]
本稿では,適応再評価フレームワークを用いた拡散モデル誘導型インプリシットQ-ラーニングを導入したオフライン強化学習(オフラインRL)手法を提案する。
拡散モデルを利用して状態-作用系列の分布を学習し、よりバランスよく適応的な意思決定のために値関数を組み込む。
Maze2D、AntMaze、Kitchenといったタスクで示されているように、DIARは長い水平、スパース・リワード環境において、常に最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2024-10-15T07:09:56Z) - Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:43:38Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。
付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:05Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Flow Network based Generative Models for Non-Iterative Diverse Candidate
Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。
本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。
提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文 参考訳(メタデータ) (2021-06-08T14:21:10Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。