Fugu-MT 論文翻訳(概要): AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies

論文の概要: AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies

arxiv url: http://arxiv.org/abs/2402.04292v1
Date: Tue, 6 Feb 2024 10:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 18:33:12.014277
Title: AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies
Title（参考訳）: AdaFlow: 可変適応型フローベースポリシによる模倣学習
Authors: Xixi Hu, Bo Liu, Xingchao Liu and Qiang Liu
Abstract要約: 本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。 AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す AdaFlowは、成功率、行動多様性、推論速度など、すべての次元で高いパフォーマンスを実現していることを示す。
参考スコア（独自算出の注目度）: 22.967735080818006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion-based imitation learning improves Behavioral Cloning (BC) on multi-modal decision-making, but comes at the cost of significantly slower inference due to the recursion in the diffusion process. It urges us to design efficient policy generators while keeping the ability to generate diverse actions. To address this challenge, we propose AdaFlow, an imitation learning framework based on flow-based generative modeling. AdaFlow represents the policy with state-conditioned ordinary differential equations (ODEs), which are known as probability flows. We reveal an intriguing connection between the conditional variance of their training loss and the discretization error of the ODEs. With this insight, we propose a variance-adaptive ODE solver that can adjust its step size in the inference stage, making AdaFlow an adaptive decision-maker, offering rapid inference without sacrificing diversity. Interestingly, it automatically reduces to a one-step generator when the action distribution is uni-modal. Our comprehensive empirical evaluation shows that AdaFlow achieves high performance across all dimensions, including success rate, behavioral diversity, and inference speed. The code is available at https://github.com/hxixixh/AdaFlow
Abstract（参考訳）: 拡散に基づく模倣学習は、多モーダル意思決定における行動クローニング(BC)を改善するが、拡散過程の再帰により推論が著しく遅くなる。多様なアクションを生成する能力を維持しながら、効率的なポリシージェネレータを設計するよう促します。そこで本研究では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。 adaflowは、確率フローとして知られる状態条件付き常微分方程式(odes)でポリシーを表す。トレーニング損失の条件分散とODEの離散化誤差との間の興味深い関係を明らかにする。そこで本研究では,AdaFlowを適応型意思決定器とし,多様性を犠牲にすることなく高速な推論を実現する分散適応ODEソルバを提案する。興味深いことに、アクション分布がユニモーダルである場合には、自動的にワンステップジェネレータに還元される。包括的実証評価の結果,AdaFlowは成功率,行動多様性,推論速度など,すべての領域で高いパフォーマンスを実現していることがわかった。コードはhttps://github.com/hxixh/AdaFlowで入手できる。

関連論文リスト

One-Step Flow Policy Mirror Descent [38.39095131927252]
Flow Policy Mirror Descent (FPMD)は、ポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文参考訳（メタデータ） (2025-07-31T15:51:10Z)
Contrastive Flow Matching [61.60002028726023]
コントラストフローマッチング(Contrastive Flow Matching)は、全ての条件フローに対して一意性を明示するフローマッチング対象の拡張である。提案手法は,任意のサンプル対からの予測フロー間の相違を最大化するための対照的な目的を与える。比較フローマッチングによるトレーニングモデル(1)は最大9倍のトレーニング速度,(2)は最大5倍のノイズ除去ステップ,(3)FIDを最大8.9以下に向上させる。
論文参考訳（メタデータ） (2025-06-05T17:59:58Z)
Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文参考訳（メタデータ） (2025-05-26T03:42:20Z)
Unraveling the Connections between Flow Matching and Diffusion Probabilistic Models in Training-free Conditional Generation [7.3604864243987365]
本稿では,Flow Matching を用いた Posterior Smpling (FMPS) を提案し,その適用範囲を拡大する。この補正項は、サロゲートスコア関数を組み込むように再構成することができる。 FMPSは既存の最先端手法に比べて優れた世代品質が得られることを示す。
論文参考訳（メタデータ） (2024-11-12T08:14:39Z)
FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。条件設定では、太陽予測において優れた性能を達成している。
論文参考訳（メタデータ） (2024-11-12T03:03:23Z)
DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation [10.645244994430483]
本稿では,適応再評価フレームワークを用いた拡散モデル誘導型インプリシットQ-ラーニングを導入したオフライン強化学習(オフラインRL)手法を提案する。拡散モデルを利用して状態-作用系列の分布を学習し、よりバランスよく適応的な意思決定のために値関数を組み込む。 Maze2D、AntMaze、Kitchenといったタスクで示されているように、DIARは長い水平、スパース・リワード環境において、常に最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2024-10-15T07:09:56Z)
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文参考訳（メタデータ） (2024-10-09T17:43:38Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。 ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文参考訳（メタデータ） (2024-02-07T11:11:46Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文参考訳（メタデータ） (2023-11-09T18:59:05Z)
Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文参考訳（メタデータ） (2023-10-06T06:29:06Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Flow Network based Generative Models for Non-Iterative Diverse Candidate Generation [110.09855163856326]
本稿では,アクションのシーケンスからオブジェクトを生成するためのポリシーを学習する問題について述べる。本稿では,生成過程をフローネットワークとして見たGFlowNetを提案する。提案した目的の任意のグローバルな最小限が、所望の分布から標本化する方針を導出することを証明する。
論文参考訳（メタデータ） (2021-06-08T14:21:10Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。