論文の概要: Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression
- arxiv url: http://arxiv.org/abs/2412.03293v1
- Date: Wed, 04 Dec 2024 13:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:08.118815
- Title: Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression
- Title(参考訳): 拡散-VLA:統一拡散と自己回帰によるロボット基礎モデルのスケーリング
- Authors: Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng,
- Abstract要約: DiffusionVLAは、自己回帰モデルと拡散モデルとをシームレスに組み合わせ、ビジュモータポリシーを学習するフレームワークである。
自己推論によるポリシー学習を強化するために,新しい推論インジェクションモジュールを導入する。
複数の実ロボットを用いて広範に実験を行い,DiffusionVLAの有効性を検証した。
- 参考スコア(独自算出の注目度): 9.923268972395107
- License:
- Abstract: In this paper, we present DiffusionVLA, a novel framework that seamlessly combines the autoregression model with the diffusion model for learning visuomotor policy. Central to our approach is a next-token prediction objective, enabling the model to reason effectively over the user's query in the context of current observations. Subsequently, a diffusion model is attached to generate robust action outputs. To enhance policy learning through self-reasoning, we introduce a novel reasoning injection module that integrates reasoning phrases directly into the policy learning process. The whole framework is simple and flexible, making it easy to deploy and upgrade. We conduct extensive experiments using multiple real robots to validate the effectiveness of DiffusionVLA. Our tests include a challenging factory sorting task, where DiffusionVLA successfully categorizes objects, including those not seen during training. We observe that the reasoning module makes the model interpretable. It allows observers to understand the model thought process and identify potential causes of policy failures. Additionally, we test DiffusionVLA on a zero-shot bin-picking task, achieving 63.7\% accuracy on 102 previously unseen objects. Our method demonstrates robustness to visual changes, such as distractors and new backgrounds, and easily adapts to new embodiments. Furthermore, DiffusionVLA can follow novel instructions and retain conversational ability. Notably, DiffusionVLA is data-efficient and fast at inference; our smallest DiffusionVLA-2B runs 82Hz on a single A6000 GPU and can train from scratch on less than 50 demonstrations for a complex task. Finally, we scale the model from 2B to 72B parameters, showcasing improved generalization capabilities with increased model size.
- Abstract(参考訳): 本稿では,自己回帰モデルと拡散モデルとをシームレスに結合した新しいフレームワークであるDiffusionVLAを提案する。
当社のアプローチの中心は次世代の予測目標であり,現在の観測状況において,ユーザのクエリを効果的に推論することが可能になる。
その後、拡散モデルを取り付けてロバストな動作出力を生成する。
自己推論による政策学習を強化するために,政策学習プロセスに直接推論フレーズを統合する新たな推論注入モジュールを導入する。
フレームワーク全体がシンプルで柔軟なので、デプロイやアップグレードが容易になります。
複数の実ロボットを用いて広範に実験を行い,DiffusionVLAの有効性を検証した。
私たちのテストには、DiffusionVLAがトレーニング中に見えないものを含むオブジェクトをうまく分類する、難しいファクトリソートタスクが含まれています。
推論モジュールがモデルを解釈可能であることを観察する。
これにより、オブザーバはモデル思考プロセスを理解し、政策失敗の潜在的な原因を特定することができる。
さらに、DiffusionVLAをゼロショットのビンピッキングタスクでテストし、102個の未確認オブジェクトに対して63.7\%の精度を実現した。
本手法は, 邪魔者や新しい背景などの視覚的変化に対する堅牢性を示し, 新たな実施形態に容易に適応できる。
さらに、DiffusionVLAは新たな指示に従うことができ、会話能力を維持することができる。
我々の最小のDiffusionVLA-2Bは1つのA6000 GPU上で82Hzで動作し、50以下の複雑なタスクでゼロからトレーニングすることができる。
最後に,モデルを2Bから72Bパラメータに拡張し,モデルサイズの増大による一般化能力の向上を示す。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Density-based Feasibility Learning with Normalizing Flows for
Introspective Robotic Assembly [20.92328610763089]
本稿では,実例のみを必要とする密度に基づく実現可能性学習法を提案する。
提案手法は,ロボット組立のユースケースで実証され,他の単一クラスベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-07-03T19:43:53Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Towards Controllable Diffusion Models via Reward-Guided Exploration [15.857464051475294]
強化学習(RL)による拡散モデルの学習段階を導く新しい枠組みを提案する。
RLは、政策そのものではなく、指数スケールの報酬に比例したペイオフ分布からのサンプルによる政策勾配を計算することができる。
3次元形状と分子生成タスクの実験は、既存の条件拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-14T13:51:26Z) - Membership Inference Attacks against Diffusion Models [0.0]
拡散モデルは近年、革新的な生成モデルとして注目されている。
本研究では,拡散モデルがメンバシップ推論攻撃に耐性があるかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-07T05:20:20Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。