論文の概要: ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
- arxiv url: http://arxiv.org/abs/2508.10333v1
- Date: Thu, 14 Aug 2025 04:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.17973
- Title: ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
- Title(参考訳): ReconVLA: 効果的なロボット知覚者としての再構築型ビジョンランゲージ・アクションモデル
- Authors: Wenxuan Song, Ziyang Zhou, Han Zhao, Jiayi Chen, Pengxiang Ding, Haodong Yan, Yuxin Huang, Feilong Tang, Donglin Wang, Haoang Li,
- Abstract要約: 本稿では,暗黙的な基礎パラダイムを持つ再構成型VLAモデルReconVLAを提案する。
拡散変換器は、モデルの視覚出力に基づいて画像の視線領域を再構成する。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当てる。
- 参考スコア(独自算出の注目度): 35.25196177784228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language-Action (VLA) models have enabled robotic agents to integrate multimodal understanding with action execution. However, our empirical analysis reveals that current VLAs struggle to allocate visual attention to target regions. Instead, visual attention is always dispersed. To guide the visual attention grounding on the correct target, we propose ReconVLA, a reconstructive VLA model with an implicit grounding paradigm. Conditioned on the model's visual outputs, a diffusion transformer aims to reconstruct the gaze region of the image, which corresponds to the target manipulated objects. This process prompts the VLA model to learn fine-grained representations and accurately allocate visual attention, thus effectively leveraging task-specific visual information and conducting precise manipulation. Moreover, we curate a large-scale pretraining dataset comprising over 100k trajectories and 2 million data samples from open-source robotic datasets, further boosting the model's generalization in visual reconstruction. Extensive experiments in simulation and the real world demonstrate the superiority of our implicit grounding method, showcasing its capabilities of precise manipulation and generalization. Our project page is https://zionchow.github.io/ReconVLA/.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルの進歩により、ロボットエージェントがマルチモーダル理解とアクション実行を統合できるようになった。
しかしながら、我々の実証分析では、現在のVLAはターゲット領域に視覚的注意を割り当てるのに苦労していることが明らかになっている。
視覚的注意は常に分散している。
そこで本研究では,暗黙的な接地パラダイムを持つ再構成型VLAモデルであるReconVLAを提案する。
モデルの視覚出力に基づいて、拡散変換器は、対象の操作対象に対応する画像の視線領域を再構成することを目的としている。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当て、タスク固有の視覚情報を効果的に活用し、正確な操作を行う。
さらに、オープンソースのロボットデータセットから1万以上の軌道と200万データからなる大規模事前学習データセットをキュレートし、視覚的再構成におけるモデルの一般化をさらに促進する。
シミュレーションと実世界における大規模な実験は、暗黙の接地手法の優位性を証明し、精密な操作と一般化の能力を示している。
私たちのプロジェクトページはhttps://zionchow.github.io/ReconVLA/です。
関連論文リスト
- DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - cVLA: Towards Efficient Camera-Space VLAs [26.781510474119845]
Vision-Language-Action(VLA)モデルは、複雑なロボット操作タスクに取り組むための魅力的なフレームワークを提供する。
2次元画像上での視覚言語モデルの競合性能を活用する新しいVLA手法を提案する。
我々のモデルは軌道方向の経路を予測し、トレーニングとロボットの実施の両方を効果的に行う。
論文 参考訳(メタデータ) (2025-07-02T22:56:41Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。