論文の概要: Diffusing States and Matching Scores: A New Framework for Imitation Learning
- arxiv url: http://arxiv.org/abs/2410.13855v1
- Date: Thu, 17 Oct 2024 17:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:46.082657
- Title: Diffusing States and Matching Scores: A New Framework for Imitation Learning
- Title(参考訳): 状態の拡散とマッチングスコア: 模倣学習のための新しいフレームワーク
- Authors: Runzhe Wu, Yiding Chen, Gokul Swamy, Kianté Brantley, Wen Sun,
- Abstract要約: 敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
近年、拡散モデルはGANの非敵対的な代替品として出現している。
提案手法は, 様々な連続制御問題に対して, GANスタイルの模倣学習ベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 16.941612670582522
- License:
- Abstract: Adversarial Imitation Learning is traditionally framed as a two-player zero-sum game between a learner and an adversarially chosen cost function, and can therefore be thought of as the sequential generalization of a Generative Adversarial Network (GAN). A prominent example of this framework is Generative Adversarial Imitation Learning (GAIL). However, in recent years, diffusion models have emerged as a non-adversarial alternative to GANs that merely require training a score function via regression, yet produce generations of a higher quality. In response, we investigate how to lift insights from diffusion modeling to the sequential setting. We propose diffusing states and performing score-matching along diffused states to measure the discrepancy between the expert's and learner's states. Thus, our approach only requires training score functions to predict noises via standard regression, making it significantly easier and more stable to train than adversarial methods. Theoretically, we prove first- and second-order instance-dependent bounds with linear scaling in the horizon, proving that our approach avoids the compounding errors that stymie offline approaches to imitation learning. Empirically, we show our approach outperforms GAN-style imitation learning baselines across various continuous control problems, including complex tasks like controlling humanoids to walk, sit, and crawl.
- Abstract(参考訳): 敵対的模倣学習は伝統的に、学習者と敵対的選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されており、従って生成的敵ネットワーク(GAN)の逐次的な一般化と見なすことができる。
このフレームワークの顕著な例は、GAIL(Generative Adversarial Imitation Learning)である。
しかし、近年、拡散モデルは、単に回帰によるスコア関数の訓練を必要とするだけでなく、より高い品質の世代を生成するGANの非敵対的な代替品として出現している。
そこで本研究では,拡散モデルから逐次的設定への洞察を高める方法について検討する。
本研究では,拡散状態と拡散状態との差を測定するために,拡散状態と拡散状態に沿ってスコアマッチングを行うことを提案する。
したがって,本手法では,標準回帰法による雑音予測のための学習スコア関数のみを必要としており,逆回帰法よりも学習が極めて容易かつ安定である。
理論的には、一階および二階のインスタンス依存境界を水平線上の線形スケーリングで証明し、我々の手法が模倣学習へのオフラインアプローチを妨害する複雑なエラーを避けることを証明した。
経験的に、我々は、歩行、座り、クロールするヒューマノイドを制御するような複雑なタスクを含む、さまざまな連続的な制御問題において、GANスタイルの模倣学習ベースラインよりも優れたアプローチを示します。
関連論文リスト
- Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression [11.040033344386366]
対象タスクの学習性能を限定的なサンプルで向上させるため, 新規な融合正規化器を用いた2段階の手法を提案する。
対象モデルの推定誤差に対して、漸近的境界が提供される。
提案手法を分散設定に拡張し,事前学習ファインタニング戦略を実現する。
論文 参考訳(メタデータ) (2024-04-01T14:58:16Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Federated Unlearning via Active Forgetting [24.060724751342047]
インクリメンタルラーニングに基づく新しいフェデレーション・アンラーニング・フレームワークを提案する。
我々のフレームワークは、近似的再学習やデータ影響推定に依存する既存の非学習手法とは異なる。
論文 参考訳(メタデータ) (2023-07-07T03:07:26Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Variational Beam Search for Learning with Distribution Shifts [26.345665980534374]
i)最小限の連続観測に基づく微妙な分布シフトの推論が可能であり、(ii)それに応じてモデルをオンライン方式で適応できるベイズ式メタアルゴリズムを提案する。
私たちの提案するアプローチはモデルに依存しず、教師なしと教師なしの両方の学習に適用可能であり、最先端のベイズオンライン学習アプローチよりも大幅に改善されます。
論文 参考訳(メタデータ) (2020-12-15T05:28:47Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods [21.89749623434729]
非対人模倣学習のための枠組みを提案する。
結果のアルゴリズムは敵のアルゴリズムと似ている。
また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-08T13:43:06Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。