論文の概要: DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
- arxiv url: http://arxiv.org/abs/2511.22134v1
- Date: Thu, 27 Nov 2025 06:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.416419
- Title: DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
- Title(参考訳): DualVLA:ReasoningとActionの部分的分離による汎用的体型エージェントの構築
- Authors: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao,
- Abstract要約: 推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
- 参考スコア(独自算出の注目度): 62.70893433854428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.
- Abstract(参考訳): 高い推論能力を持つ一般化可能なビジョン・ランゲージ・アクション(VLA)モデルを構築するため、まずロボットのデモンストレーションで専門家のVLAを訓練し、信頼性の高い操作スキルを習得し、さらにマルチモーダルデータと混合注釈付きロボットデータを組み込んでより広範な推論能力を回復させるという戦略が一般的である。
しかし, 結果として生じるVLAは, 微調整前のスペシャリストモデルと比較して, 劣化した動作性能に悩まされることが多い。
この問題に対処するため,我々は,推論能力を維持しつつ,慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
まず、冗長な具体的推論を除去し、動作学習に悪影響を及ぼすのを防ぐ2層データプルーニング手法を提案する。
動作生成をさらに強化するため、推論能力を維持しつつ、異なるデータ領域に異なる監視信号を割り当てるデュアル教師適応蒸留戦略を設計する。
一般VLAの評価ギャップを埋めるため,より詳細な評価のために,VLA能力を推論,意図,行動,アライメント次元に分解するVLAスコアを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0で、競合する8つのマルチモーダルベンチマークの平均スコアは65.4であり、正確なアクション実行とマルチモーダル理解のバランスが強いことが示されている。
プロジェクトサイト:https://costaliya.github.io/DualVLA/。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。