Fugu-MT 論文翻訳(概要): Behavioral Refinement via Interpolant-based Policy Diffusion

論文の概要: Behavioral Refinement via Interpolant-based Policy Diffusion

arxiv url: http://arxiv.org/abs/2402.16075v1
Date: Sun, 25 Feb 2024 12:19:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 15:21:14.882068
Title: Behavioral Refinement via Interpolant-based Policy Diffusion
Title（参考訳）: インターポーラント型政策拡散による行動抑制
Authors: Kaiqi Chen, Eugene Lim, Kelvin Lin, Yiyang Chen and Harold Soh
Abstract要約: 拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。我々の手法はBRIDGERと呼ばれ、補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。
参考スコア（独自算出の注目度）: 17.63910869653275
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Imitation learning empowers artificial agents to mimic behavior by learning from demonstrations. Recently, diffusion models, which have the ability to model high-dimensional and multimodal distributions, have shown impressive performance on imitation learning tasks. These models learn to shape a policy by diffusing actions (or states) from standard Gaussian noise. However, the target policy to be learned is often significantly different from Gaussian and this mismatch can result in poor performance when using a small number of diffusion steps (to improve inference speed) and under limited data. The key idea in this work is that initiating from a more informative source than Gaussian enables diffusion methods to overcome the above limitations. We contribute both theoretical results, a new method, and empirical findings that show the benefits of using an informative source policy. Our method, which we call BRIDGER, leverages the stochastic interpolants framework to bridge arbitrary policies, thus enabling a flexible approach towards imitation learning. It generalizes prior work in that standard Gaussians can still be applied, but other source policies can be used if available. In experiments on challenging benchmarks, BRIDGER outperforms state-of-the-art diffusion policies and we provide further analysis on design considerations when applying BRIDGER.
Abstract（参考訳）: 模倣学習は、デモから学習することで行動の模倣を人工エージェントに与える。近年,高次元およびマルチモーダル分布をモデル化できる拡散モデルは,模倣学習タスクにおいて印象的な性能を示している。これらのモデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学ぶ。しかし、学習対象のポリシーはガウシアンと大きく異なり、このミスマッチは(推論速度を改善するために)少数の拡散ステップを使用する場合や、限られたデータの下では性能が低下する可能性がある。この研究の鍵となる考え方は、ガウス的よりも情報的な情報源から始めることで、拡散法が上記の制限を克服できるということである。提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。本手法は, 確率的補間フレームワークを用いて任意の方針を橋渡しし, 模倣学習への柔軟なアプローチを可能にする。これは、標準ガウスがまだ適用可能であるという事前の作業を一般化するが、他のソースポリシーが利用可能であれば利用できる。試行錯誤試験において,BRIDGERは最先端の拡散ポリシーより優れており,BRIDGERを適用する際の設計上の考慮事項についてさらなる分析を行う。

関連論文リスト

Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文参考訳（メタデータ） (2025-02-03T14:20:19Z)
Latent Weight Diffusion: Generating Policies from Trajectories [13.404962654299041]
遅延重み拡散(英語: Latent Weight Diffusion、LWD)は、拡散を利用して、軌道よりもむしろロボットタスクのポリシーに関する分布を学習する手法である。 LWDは、バニラマルチタスクポリシーよりも高い成功率を達成する一方で、推論時に最大18倍のモデルを使用する。
論文参考訳（メタデータ） (2024-10-17T21:30:29Z)
Equivariant Diffusion Policy [16.52810213171303]
そこで本研究では,ドメイン対称性を利用した新しい拡散政策学習手法を提案し,より優れたサンプル効率とデノナイジング関数の一般化を実現する。提案手法は,MimicGenにおける12のシミュレーションタスクに対して実証的に評価し,ベースライン拡散政策よりも平均21.9%高い成功率が得られることを示す。
論文参考訳（メタデータ） (2024-07-01T21:23:26Z)
Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。 DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文参考訳（メタデータ） (2024-06-02T09:32:28Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Policy Representation via Diffusion Probability Model for Reinforcement Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文参考訳（メタデータ） (2023-05-22T15:23:41Z)
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-04-05T15:52:34Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。