Fugu-MT 論文翻訳(概要): Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning

論文の概要: Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning

arxiv url: http://arxiv.org/abs/2307.01849v1
Date: Tue, 4 Jul 2023 17:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 16:10:30.763034
Title: Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning
Title（参考訳）: クロスウェイ拡散:自己教師型学習による拡散に基づくビジュモータ政策の改善
Authors: Xiang Li, Varun Belagali, Jinghuan Shang, Michael S. Ryoo
Abstract要約: 拡散に基づくビジュモータポリシー学習を強化するために,クロスウェイ拡散を提案する。シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
参考スコア（独自算出の注目度）: 40.79906111974303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequence modeling approaches have shown promising results in robot imitation learning. Recently, diffusion models have been adopted for behavioral cloning, benefiting from their exceptional capabilities in modeling complex data distribution. In this work, we propose Crossway Diffusion, a method to enhance diffusion-based visuomotor policy learning by using an extra self-supervised learning (SSL) objective. The standard diffusion-based policy generates action sequences from random noise conditioned on visual observations and other low-dimensional states. We further extend this by introducing a new decoder that reconstructs raw image pixels (and other state information) from the intermediate representations of the reverse diffusion process, and train the model jointly using the SSL loss. Our experiments demonstrate the effectiveness of Crossway Diffusion in various simulated and real-world robot tasks, confirming its advantages over the standard diffusion-based policy. We demonstrate that such self-supervised reconstruction enables better representation for policy learning, especially when the demonstrations have different proficiencies.
Abstract（参考訳）: シーケンスモデリングアプローチはロボット模倣学習において有望な結果を示している。近年,複雑なデータ分布のモデル化に特有な能力を有する拡散モデルが,行動のクローニングに採用されている。本研究では,自己教師付き学習(SSL)目標を用いて,拡散に基づくビジュモータポリシー学習を強化する手法であるクロスウェイ拡散を提案する。標準拡散に基づくポリシーは、視覚観測やその他の低次元状態に基づくランダムノイズから動作シーケンスを生成する。さらに、逆拡散過程の中間表現から生画像画素(および他の状態情報)を再構成する新しいデコーダを導入し、ssl損失を用いて共同でモデルを訓練することで、これをさらに拡張する。シミュレーションおよび実世界のロボットタスクにおけるクロスウェイ拡散の有効性を実証し,標準拡散法よりも優れていることを確認する。このような自己教師型再構築は,特に実演の習熟度が異なる場合において,政策学習の表現性を向上することを示す。

関連論文リスト

FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring [33.809728459395785]
FideDiffは、高忠実度デブロアリング用に設計された新しい単一ステップ拡散モデルである。我々は、各タイムステップが徐々にぼやけた画像を表す拡散のようなプロセスとして、動きのデブロアリングを再構成する。一致したぼやけた軌跡でトレーニングデータを再構成することにより、モデルは時間的一貫性を学習し、正確なワンステップのデブロワーを可能にする。
論文参考訳（メタデータ） (2025-10-02T03:44:45Z)
Unleashing the Potential of the Semantic Latent Space in Diffusion Models for Image Dehazing [25.138589492384654]
DiffLI$2$Dという画像デハジングのための拡散遅延インスパイアネットワークを提案する。まず、事前学習した拡散モデルのセマンティック潜時空間が、画像の内容とヘイズ特性を表現することができることを明らかにした。異なる時間ステップでの拡散遅延表現を繊細に設計したデハジングネットワークに統合し、画像デハジングの指示を与える。
論文参考訳（メタデータ） (2025-09-24T13:11:37Z)
USP: Unified Self-Supervised Pretraining for Image Generation and Understanding [15.717333276867462]
Unified Self-supervised Pretraining (USP) は、変分オートエンコーダ(VAE)潜時空間におけるマスク付き潜時モデリングにより拡散モデルを初期化するフレームワークである。 USPは、拡散モデルの収束速度と生成品質を大幅に改善しながら、理解タスクにおいて同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-08T09:01:03Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文参考訳（メタデータ） (2024-10-07T18:49:55Z)
LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation [6.866014367868788]
本稿ではLDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。これは、条件付き認知過程に顔分割と顔認識モジュールを利用するガイド付き潜伏拡散モデルに基づいている。本研究の結果から,提案手法は極めて現実的でコヒーレントな画像を生成することができることが示された。
論文参考訳（メタデータ） (2024-08-04T16:09:04Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文参考訳（メタデータ） (2023-05-29T07:49:44Z)
Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文参考訳（メタデータ） (2023-05-22T17:57:41Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。