Fugu-MT 論文翻訳(概要): Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning

論文の概要: Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning

arxiv url: http://arxiv.org/abs/2307.01849v3
Date: Thu, 11 Jan 2024 18:42:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 03:54:46.982752
Title: Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning
Title（参考訳）: クロスウェイ拡散:自己教師型学習による拡散に基づくビジュモータ政策の改善
Authors: Xiang Li, Varun Belagali, Jinghuan Shang, Michael S. Ryoo
Abstract要約: 拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
参考スコア（独自算出の注目度）: 42.009856923352864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequence modeling approaches have shown promising results in robot imitation learning. Recently, diffusion models have been adopted for behavioral cloning in a sequence modeling fashion, benefiting from their exceptional capabilities in modeling complex data distributions. The standard diffusion-based policy iteratively generates action sequences from random noise conditioned on the input states. Nonetheless, the model for diffusion policy can be further improved in terms of visual representations. In this work, we propose Crossway Diffusion, a simple yet effective method to enhance diffusion-based visuomotor policy learning via a carefully designed state decoder and an auxiliary self-supervised learning (SSL) objective. The state decoder reconstructs raw image pixels and other state information from the intermediate representations of the reverse diffusion process. The whole model is jointly optimized by the SSL objective and the original diffusion loss. Our experiments demonstrate the effectiveness of Crossway Diffusion in various simulated and real-world robot tasks, confirming its consistent advantages over the standard diffusion-based policy and substantial improvements over the baselines.
Abstract（参考訳）: シーケンスモデリングアプローチはロボット模倣学習において有望な結果を示している。近年,複雑なデータ分布をモデル化する能力に特有な利点を生かして,行動のクローニングに拡散モデルが採用されている。標準拡散ベースのポリシーは、入力状態に条件付けられたランダムノイズからアクションシーケンスを反復的に生成する。それでも、拡散政策のモデルは、視覚的表現の観点からさらに改善することができる。本研究では,注意深い状態デコーダと補助的自己教師付き学習(ssl)目標を用いて,拡散に基づくバイスモータポリシー学習を強化するための簡易かつ効果的な手法であるcrossway diffusionを提案する。状態復号器は、逆拡散過程の中間表現から原画像画素その他の状態情報を再構成する。モデル全体がSSL目標と元の拡散損失によって共同で最適化される。シミュレーションおよび実世界のロボットタスクにおけるクロスウェイ拡散の有効性を実証し、標準拡散に基づくポリシーに対する一貫した優位性を確認し、ベースラインよりも大幅に改善した。

関連論文リスト

USP: Unified Self-Supervised Pretraining for Image Generation and Understanding [15.717333276867462]
Unified Self-supervised Pretraining (USP) は、変分オートエンコーダ(VAE)潜時空間におけるマスク付き潜時モデリングにより拡散モデルを初期化するフレームワークである。 USPは、拡散モデルの収束速度と生成品質を大幅に改善しながら、理解タスクにおいて同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-08T09:01:03Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文参考訳（メタデータ） (2024-10-07T18:49:55Z)
LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation [6.866014367868788]
本稿ではLDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。これは、条件付き認知過程に顔分割と顔認識モジュールを利用するガイド付き潜伏拡散モデルに基づいている。本研究の結果から,提案手法は極めて現実的でコヒーレントな画像を生成することができることが示された。
論文参考訳（メタデータ） (2024-08-04T16:09:04Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文参考訳（メタデータ） (2023-05-29T07:49:44Z)
Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文参考訳（メタデータ） (2023-05-22T17:57:41Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。