論文の概要: SD2AIL: Adversarial Imitation Learning from Synthetic Demonstrations via Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.18583v1
- Date: Sun, 21 Dec 2025 04:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.405421
- Title: SD2AIL: Adversarial Imitation Learning from Synthetic Demonstrations via Diffusion Models
- Title(参考訳): SD2AIL:拡散モデルによる合成デモからの逆模倣学習
- Authors: Pengcheng Li, Qiang Fang, Tong Zhao, Yixing Lan, Xin Xu,
- Abstract要約: Adversarial Imitation Learning (AIL)は、専門家による実証から報酬を推論し、政策最適化を導くフレームワークである。
本稿では,拡散モデルを用いた合成デモンストレーションを利用するSD2AILを提案する。
提案手法は,最先端の手法を89倍に越え,平均3441のリターンを達成する。
- 参考スコア(独自算出の注目度): 24.224053689246748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial Imitation Learning (AIL) is a dominant framework in imitation learning that infers rewards from expert demonstrations to guide policy optimization. Although providing more expert demonstrations typically leads to improved performance and greater stability, collecting such demonstrations can be challenging in certain scenarios. Inspired by the success of diffusion models in data generation, we propose SD2AIL, which utilizes synthetic demonstrations via diffusion models. We first employ a diffusion model in the discriminator to generate synthetic demonstrations as pseudo-expert data that augment the expert demonstrations. To selectively replay the most valuable demonstrations from the large pool of (pseudo-) expert demonstrations, we further introduce a prioritized expert demonstration replay strategy (PEDR). The experimental results on simulation tasks demonstrate the effectiveness and robustness of our method. In particular, in the Hopper task, our method achieves an average return of 3441, surpassing the state-of-the-art method by 89. Our code will be available at https://github.com/positron-lpc/SD2AIL.
- Abstract(参考訳): Adversarial Imitation Learning (AIL) は、専門家による実証から報酬を推論し、政策最適化を導く模倣学習において支配的なフレームワークである。
より専門的なデモを提供すると、一般的にパフォーマンスが向上し、安定性が向上するが、そのようなデモを収集することは、特定のシナリオでは難しい場合がある。
データ生成における拡散モデルの成功に触発されて,拡散モデルによる合成デモンストレーションを利用するSD2AILを提案する。
まず、判別器に拡散モデルを用いて、擬似専門家データとして合成デモンストレーションを生成し、専門家によるデモンストレーションを増強する。
大規模な(擬似)専門家によるデモンストレーションのプールから最も価値のあるデモを選択的に再生するために、さらに優先順位付けされた専門家によるデモンストレーション・リプレイ戦略(PEDR)を導入する。
シミュレーションタスクの実験結果から,本手法の有効性とロバスト性を示す。
特に,ホッパータスクでは,平均リターン3441を達成し,最先端の手法を89。
私たちのコードはhttps://github.com/positron-lpc/SD2AILで公開されます。
関連論文リスト
- DiffusionTrend: A Minimalist Approach to Virtual Fashion Try-On [103.89972383310715]
DiffusionTrendは、事前情報に富んだ潜伏情報を利用して、衣服の詳細のニュアンスをキャプチャする。
視覚的に魅力的な試行体験を提供し、トレーニング不要の拡散モデルの可能性を強調します。
論文 参考訳(メタデータ) (2024-12-19T02:24:35Z) - Imitation Learning from Purified Demonstrations [47.52316615371601]
本稿では,まず不完全な実演における潜在的な雑音を除去し,その後,これらの実演から模擬学習を行うことを提案する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演と最適実演との距離を有界化できることを実証する。
論文 参考訳(メタデータ) (2023-10-11T02:36:52Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - Intrinsic Reward Driven Imitation Learning via Generative Model [48.97800481338626]
ほとんどの逆強化学習(IRL)法は、高次元環境下では実証者よりも優れていない。
生成モデルを用いて固有報酬信号を生成するための新たな報奨学習モジュールを提案する。
実験結果から,本手法は,一生のデモンストレーションであっても,複数のアタリゲームにおいて最先端のIRL法よりも優れることが示された。
論文 参考訳(メタデータ) (2020-06-26T15:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。