論文の概要: Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2307.01849v1
- Date: Tue, 4 Jul 2023 17:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 16:10:30.763034
- Title: Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning
- Title(参考訳): クロスウェイ拡散:自己教師型学習による拡散に基づくビジュモータ政策の改善
- Authors: Xiang Li, Varun Belagali, Jinghuan Shang, Michael S. Ryoo
- Abstract要約: 拡散に基づくビジュモータポリシー学習を強化するために,クロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
- 参考スコア(独自算出の注目度): 40.79906111974303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence modeling approaches have shown promising results in robot imitation
learning. Recently, diffusion models have been adopted for behavioral cloning,
benefiting from their exceptional capabilities in modeling complex data
distribution. In this work, we propose Crossway Diffusion, a method to enhance
diffusion-based visuomotor policy learning by using an extra self-supervised
learning (SSL) objective. The standard diffusion-based policy generates action
sequences from random noise conditioned on visual observations and other
low-dimensional states. We further extend this by introducing a new decoder
that reconstructs raw image pixels (and other state information) from the
intermediate representations of the reverse diffusion process, and train the
model jointly using the SSL loss. Our experiments demonstrate the effectiveness
of Crossway Diffusion in various simulated and real-world robot tasks,
confirming its advantages over the standard diffusion-based policy. We
demonstrate that such self-supervised reconstruction enables better
representation for policy learning, especially when the demonstrations have
different proficiencies.
- Abstract(参考訳): シーケンスモデリングアプローチはロボット模倣学習において有望な結果を示している。
近年,複雑なデータ分布のモデル化に特有な能力を有する拡散モデルが,行動のクローニングに採用されている。
本研究では,自己教師付き学習(SSL)目標を用いて,拡散に基づくビジュモータポリシー学習を強化する手法であるクロスウェイ拡散を提案する。
標準拡散に基づくポリシーは、視覚観測やその他の低次元状態に基づくランダムノイズから動作シーケンスを生成する。
さらに、逆拡散過程の中間表現から生画像画素(および他の状態情報)を再構成する新しいデコーダを導入し、ssl損失を用いて共同でモデルを訓練することで、これをさらに拡張する。
シミュレーションおよび実世界のロボットタスクにおけるクロスウェイ拡散の有効性を実証し,標準拡散法よりも優れていることを確認する。
このような自己教師型再構築は,特に実演の習熟度が異なる場合において,政策学習の表現性を向上することを示す。
関連論文リスト
- Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation [6.866014367868788]
本稿ではLDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。
これは、条件付き認知過程に顔分割と顔認識モジュールを利用するガイド付き潜伏拡散モデルに基づいている。
本研究の結果から,提案手法は極めて現実的でコヒーレントな画像を生成することができることが示された。
論文 参考訳(メタデータ) (2024-08-04T16:09:04Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。