論文の概要: Diffusion Imitation from Observation
- arxiv url: http://arxiv.org/abs/2410.05429v1
- Date: Mon, 07 Oct 2024 18:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:32:32.094690
- Title: Diffusion Imitation from Observation
- Title(参考訳): 観察からの拡散模倣
- Authors: Bo-Ruei Huang, Chun-Kai Yang, Chun-Mao Lai, Dai-Jie Wu, Shao-Hua Sun,
- Abstract要約: 敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
- 参考スコア(独自算出の注目度): 4.205946699819021
- License:
- Abstract: Learning from observation (LfO) aims to imitate experts by learning from state-only demonstrations without requiring action labels. Existing adversarial imitation learning approaches learn a generator agent policy to produce state transitions that are indistinguishable to a discriminator that learns to classify agent and expert state transitions. Despite its simplicity in formulation, these methods are often sensitive to hyperparameters and brittle to train. Motivated by the recent success of diffusion models in generative modeling, we propose to integrate a diffusion model into the adversarial imitation learning from observation framework. Specifically, we employ a diffusion model to capture expert and agent transitions by generating the next state, given the current state. Then, we reformulate the learning objective to train the diffusion model as a binary classifier and use it to provide "realness" rewards for policy learning. Our proposed framework, Diffusion Imitation from Observation (DIFO), demonstrates superior performance in various continuous control domains, including navigation, locomotion, manipulation, and games. Project page: https://nturobotlearninglab.github.io/DIFO
- Abstract(参考訳): 観察から学ぶ(LfO)は、行動ラベルを必要とせず、州のみのデモンストレーションから学ぶことで専門家を模倣することを目的としている。
既存の敵の模倣学習アプローチは、エージェントを分類し、専門的な状態遷移を学習する判別器と区別できない状態遷移を生成するために、ジェネレータエージェントポリシーを学ぶ。
定式化の単純さにもかかわらず、これらの方法はしばしばハイパーパラメータに敏感であり、訓練に脆弱である。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
具体的には、現在の状態から次の状態を生成することにより、専門家とエージェントの遷移を捉える拡散モデルを用いる。
そこで我々は,拡散モデルを二項分類器として訓練するために学習対象を再構成し,それを用いて政策学習に「現実性」の報酬を与える。
提案するフレームワークであるDiffusion Imitation from Observation (DIFO)は,ナビゲーション,移動,操作,ゲームなど,さまざまな連続制御領域において優れた性能を示す。
プロジェクトページ: https://nturobotlearninglab.github.io/DIFO
関連論文リスト
- Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffAIL: Diffusion Adversarial Imitation Learning [32.90853955228524]
模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。
拡散逆模倣学習法(DiffAIL)を提案する。
提案手法は最先端の性能を達成し、2つのベンチマークタスクにおける専門家の実証をはるかに上回っている。
論文 参考訳(メタデータ) (2023-12-11T12:53:30Z) - Do text-free diffusion models learn discriminative visual representations? [39.78043004824034]
本稿では,タスクの両ファミリーを同時に扱うモデルである統一表現学習者の可能性について検討する。
生成タスクの最先端手法である拡散モデル(拡散モデル)を素数候補として開発する。
拡散モデルはGANよりも優れており、融合とフィードバック機構により、差別的タスクのための最先端の教師なし画像表現学習手法と競合することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation [48.25619775814776]
本稿では,拡散モードに基づく正データ生成を用いた新しい教師なしコントラスト学習手法であるDiffAugを提案する。
DiffAugはセマンティックエンコーダと条件拡散モデルから構成されており、条件拡散モデルはセマンティックエンコーダに条件付された新しい正のサンプルを生成する。
実験的評価により、DiffAugは、DNA配列、視覚、および生体機能データセットのハンドデザインおよびSOTAモデルに基づく拡張手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-10T13:28:46Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。