論文の概要: HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2503.10631v2
- Date: Mon, 17 Mar 2025 08:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:18.631613
- Title: HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
- Title(参考訳): HybridVLA: 統合ビジョン・ランゲージ・アクションモデルにおける協調拡散と自己回帰
- Authors: Jiaming Liu, Hao Chen, Pengju An, Zhuoyang Liu, Renrui Zhang, Chenyang Gu, Xiaoqi Li, Ziyu Guo, Sixiang Chen, Mengzhen Liu, Chengkai Hou, Mengdi Zhao, KC alex Zhou, Pheng-Ann Heng, Shanghang Zhang,
- Abstract要約: 単一大規模言語モデルに自動回帰および拡散ポリシーをシームレスに統合する統合フレームワークであるHybridVLAを紹介する。
このレシピにより、これらの2種類の行動予測は互いに強化するだけでなく、異なるタスクにまたがる様々なパフォーマンスを示す。
実験では、HybridVLAは様々なシミュレーションや実世界のタスクにまたがって、最先端のVLA手法よりも優れている。
- 参考スコア(独自算出の注目度): 54.64088247291416
- License:
- Abstract: Recent advancements in vision-language models (VLMs) for common-sense reasoning have led to the development of vision-language-action (VLA) models, enabling robots to perform generalized manipulation. Although existing autoregressive VLA methods leverage large-scale pretrained knowledge, they disrupt the continuity of actions. Meanwhile, some VLA methods incorporate an additional diffusion head to predict continuous actions, relying solely on VLM-extracted features, which limits their reasoning capabilities. In this paper, we introduce HybridVLA, a unified framework that seamlessly integrates the strengths of both autoregressive and diffusion policies within a single large language model, rather than simply connecting them. To bridge the generation gap, a collaborative training recipe is proposed that injects the diffusion modeling directly into the next-token prediction. With this recipe, we find that these two forms of action prediction not only reinforce each other but also exhibit varying performance across different tasks. Therefore, we design a collaborative action ensemble mechanism that adaptively fuses these two predictions, leading to more robust control. In experiments, HybridVLA outperforms previous state-of-the-art VLA methods across various simulation and real-world tasks, including both single-arm and dual-arm robots, while demonstrating stable manipulation in previously unseen configurations.
- Abstract(参考訳): 常識推論のための視覚言語モデル(VLM)の最近の進歩は、視覚言語アクションモデル(VLA)の開発につながり、ロボットが一般化された操作を行えるようになった。
既存の自己回帰的VLA法は大規模な事前訓練された知識を活用するが、それらは行動の連続性を阻害する。
一方、いくつかのVLA法では、連続的な動作を予測するために拡散ヘッドを付加しており、VLMが抽出した特徴のみに依存しているため、推論能力は制限されている。
本稿では,単一大規模言語モデルに自己回帰的・拡散的ポリシの長所をシームレスに統合する統合フレームワークであるHybridVLAを紹介する。
生成ギャップを埋めるために,拡散モデルを直接次の予測に注入する協調学習法を提案する。
このレシピにより、これらの2種類の行動予測は互いに強化するだけでなく、異なるタスクにまたがる様々なパフォーマンスを示す。
そこで我々は,これらの2つの予測を適応的に融合させる協調行動アンサンブル機構を設計し,より堅牢な制御を実現する。
実験では、HybridVLAは従来の最先端のVLAメソッドよりも、シングルアームとデュアルアームの両方のロボットを含む様々なシミュレーションや実世界のタスクで優れており、以前は目に見えない構成で安定した操作を実証している。
関連論文リスト
- Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文 参考訳(メタデータ) (2024-12-11T05:23:34Z) - Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand [2.7036595757881323]
微調整された視覚・言語・行動モデルと拡散モデルの相対的利点を組み合わせたハイブリッド制御法を提案する。
VLAモデルのみを使用する場合と比較して,このモデル切替手法は80%以上の成功率を示す。
論文 参考訳(メタデータ) (2024-10-17T20:49:45Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models [8.943713711458633]
我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。
FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。
これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
論文 参考訳(メタデータ) (2024-08-27T02:31:39Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs [49.822063966687175]
拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
論文 参考訳(メタデータ) (2023-05-24T06:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。