論文の概要: Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2510.11027v1
- Date: Mon, 13 Oct 2025 05:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.214085
- Title: Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
- Title(参考訳): Vlaser: 相乗的エンボダイド推論を用いたビジョン・ランゲージ・アクションモデル
- Authors: Ganlin Yang, Tianyi Zhang, Haoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou,
- Abstract要約: Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
- 参考スコア(独自算出の注目度): 124.48672228625821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While significant research has focused on developing embodied reasoning capabilities using Vision-Language Models (VLMs) or integrating advanced VLMs into Vision-Language-Action (VLA) models for end-to-end robot control, few studies directly address the critical gap between upstream VLM-based reasoning and downstream VLA policy learning. In this work, we take an initial step toward bridging embodied reasoning with VLA policy learning by introducing Vlaser - a Vision-Language-Action Model with synergistic embodied reasoning capability, which is a foundational vision-language model designed to integrate high-level reasoning with low-level control for embodied agents. Built upon the high-quality Vlaser-6M dataset, Vlaser achieves state-of-the-art performance across a range of embodied reasoning benchmarks - including spatial reasoning, embodied grounding, embodied QA, and task planning. Furthermore, we systematically examine how different VLM initializations affect supervised VLA fine-tuning, offering novel insights into mitigating the domain shift between internet-scale pre-training data and embodied-specific policy learning data. Based on these insights, our approach achieves state-of-the-art results on the WidowX benchmark and competitive performance on the Google Robot benchmark.
- Abstract(参考訳): VLM(Vision-Language Models)を用いた具体的推論機能の開発や、高度なVLMをエンドツーエンドのロボット制御のためのVision-Language-Action(VLA)モデルに統合することに重点を置いている一方で、上流のVLMベースの推論と下流のVLAポリシー学習の間の重要なギャップに直接対処する研究はほとんどない。
本稿では,VLA ポリシー学習による具体的推論のブリッジ化に向けた最初の一歩として,組込みエージェントの低レベル制御と高レベル推論の統合を目的とした基本的視覚言語モデルである Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを導入する。
高品質なVlaser-6Mデータセットに基づいて構築されたVlaserは、空間推論、エンボディグラウンド、エンボディドQA、タスク計画など、さまざまな具体的推論ベンチマークで最先端のパフォーマンスを実現している。
さらに,異なるVLM初期化が教師付きVLA微調整に与える影響を系統的に検討し,インターネット規模の事前学習データと具体化されたポリシー学習データとのドメインシフトを緩和するための新たな洞察を提供する。
これらの知見に基づいて,本手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
関連論文リスト
- ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。
動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。
マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文 参考訳(メタデータ) (2025-10-05T15:29:57Z) - Pure Vision Language Action (VLA) Models: A Comprehensive Survey [16.014856048038272]
ビジョン言語アクション(VLA)モデルの出現は、従来のポリシーベースの制御から一般化されたロボット工学へのパラダイムシフトを表している。
この調査は、明確な分類学と既存の研究の体系的、包括的レビューを提供することを目的として、先進的なVLA手法を探求する。
論文 参考訳(メタデータ) (2025-09-23T13:53:52Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。