論文の概要: A Coupled Flow Approach to Imitation Learning
- arxiv url: http://arxiv.org/abs/2305.00303v1
- Date: Sat, 29 Apr 2023 17:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 16:04:25.422102
- Title: A Coupled Flow Approach to Imitation Learning
- Title(参考訳): 模擬学習のための結合フローアプローチ
- Authors: Gideon Freund, Elad Sarafian, Sarit Kraus
- Abstract要約: 強化学習と模倣学習では、政策によって引き起こされる状態分布が重要視される。
本研究では,上述の分布に対する正規化フローベースモデルの適用について検討する。
提案アルゴリズムであるCFIL(Coupled Flow Learning)は,ベンチマークタスクにおける最先端のパフォーマンスを1つの専門家軌道で達成する。
- 参考スコア(独自算出の注目度): 24.024918837659474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning and imitation learning, an object of central
importance is the state distribution induced by the policy. It plays a crucial
role in the policy gradient theorem, and references to it--along with the
related state-action distribution--can be found all across the literature.
Despite its importance, the state distribution is mostly discussed indirectly
and theoretically, rather than being modeled explicitly. The reason being an
absence of appropriate density estimation tools. In this work, we investigate
applications of a normalizing flow-based model for the aforementioned
distributions. In particular, we use a pair of flows coupled through the
optimality point of the Donsker-Varadhan representation of the Kullback-Leibler
(KL) divergence, for distribution matching based imitation learning. Our
algorithm, Coupled Flow Imitation Learning (CFIL), achieves state-of-the-art
performance on benchmark tasks with a single expert trajectory and extends
naturally to a variety of other settings, including the subsampled and
state-only regimes.
- Abstract(参考訳): 強化学習と模倣学習において、中心的重要性の対象は政策によって引き起こされる状態分布である。
この定理は政策勾配定理において重要な役割を担っており、関連する状態-作用分布とともにそれを参照している。
その重要性にもかかわらず、状態分布は明示的にモデル化されるのではなく、主に間接的に理論的に議論される。
適切な密度推定ツールがないのは理由です。
本研究では,上記の分布に対する正規化フローベースモデルの応用について検討する。
特に、分布マッチングに基づく模倣学習において、KL(Kulback-Leibler)発散のDonsker-Varadhan表現の最適点を介して結合された一対の流れを用いる。
我々のアルゴリズムであるCFIL(Coupled Flow Imitation Learning)は,1つの専門的軌道を持つベンチマークタスクにおける最先端のパフォーマンスを達成し,サブサンプルとステートのみのルールを含むさまざまな設定に自然に拡張する。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Generative Assignment Flows for Representing and Learning Joint Distributions of Discrete Data [2.6499018693213316]
本稿では,多数の離散確率変数の結合確率分布を表現するための新しい生成モデルを提案する。
全ての離散な関節分布のメタ・プレプレックスにおけるセグレ写像による流れの埋め込みは、任意の対象分布を原理的に表すことができることを保証している。
我々のアプローチは、結合された離散変数のモデリングの第一原理から強い動機を持っている。
論文 参考訳(メタデータ) (2024-06-06T21:58:33Z) - Harnessing the Power of Vicinity-Informed Analysis for Classification under Covariate Shift [9.530897053573186]
転送学習は、ソース分布からのデータを活用することにより、ターゲット分布の予測精度を向上させる。
本稿では,周辺情報,すなわちデータポイントの局所的構造を利用した新しい異種性尺度を提案する。
提案手法を用いて過大な誤差を特徴付けるとともに,従来の手法と比較して高速あるいは競合的な収束率を示す。
論文 参考訳(メタデータ) (2024-05-27T07:55:27Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Deep conditional distribution learning via conditional Föllmer flow [3.227277661633986]
本研究では,条件F"ollmer Flow"という条件分布を学習するための常微分方程式(ODE)に基づく深部生成手法を提案する。
効率的な実装のために、我々は、深層ニューラルネットワークを用いて非パラメトリックに速度場を推定するオイラー法を用いて流れを判別する。
論文 参考訳(メタデータ) (2024-02-02T14:52:10Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Enhancing Robustness of Foundation Model Representations under
Provenance-related Distribution Shifts [8.298173603769063]
分布シフト下における基礎モデルに基づくモデルの安定性について検討する。
我々は,多施設データセットの文脈に現れる分布シフトの形式である,証明によるコンバウンディングに焦点をあてる。
その結果, 基礎モデルでは, コンバウンド・バイ・プロビデンス関係の分布シフトに対して, ある程度の頑健性を示すが, 調整により改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-09T02:02:45Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Decentralized Event-Triggered Federated Learning with Heterogeneous
Communication Thresholds [12.513477328344255]
ネットワークグラフトポロジ上での非同期なイベントトリガーによるコンセンサス反復による分散モデルアグリゲーションのための新しい手法を提案する。
本手法は,分散学習とグラフコンセンサス文学における標準的な仮定の下で,グローバルな最適学習モデルを実現することを実証する。
論文 参考訳(メタデータ) (2022-04-07T20:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。