論文の概要: Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends
- arxiv url: http://arxiv.org/abs/2506.20966v1
- Date: Thu, 26 Jun 2025 03:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.954343
- Title: Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends
- Title(参考訳): トレーニング後のVLAモデルと人間の運動学習の並列性:進歩,課題,トレンド
- Authors: Tian-Yu Xiang, Ao-Qun Jin, Xiao-Hu Zhou, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Sheng-Bin Duan, Fu-Chao Xie, Wen-Kai Wang, Si-Cheng Wang, Ling-Yun Li, Tian Tu, Zeng-Guang Hou,
- Abstract要約: 視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
- 参考スコア(独自算出の注目度): 11.678954304546988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models extend vision-language models (VLM) by integrating action generation modules for robotic manipulation. Leveraging strengths of VLM in vision perception and instruction understanding, VLA models exhibit promising generalization across diverse manipulation tasks. However, applications demanding high precision and accuracy reveal performance gaps without further adaptation. Evidence from multiple domains highlights the critical role of post-training to align foundational models with downstream applications, spurring extensive research on post-training VLA models. VLA model post-training aims to address the challenge of improving an embodiment's ability to interact with the environment for the given tasks, analogous to the process of humans motor skills acquisition. Accordingly, this paper reviews post-training strategies for VLA models through the lens of human motor learning, focusing on three dimensions: environments, embodiments, and tasks. A structured taxonomy is introduced aligned with human learning mechanisms: (1) enhancing environmental perception, (2) improving embodiment awareness, (3) deepening task comprehension, and (4) multi-component integration. Finally, key challenges and trends in post-training VLA models are identified, establishing a conceptual framework to guide future research. This work delivers both a comprehensive overview of current VLA model post-training methods from a human motor learning perspective and practical insights for VLA model development. (Project website: https://github.com/AoqunJin/Awesome-VLA-Post-Training)
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、ロボット操作のためのアクション生成モジュールを統合することで、視覚言語モデル(VLM)を拡張する。
視覚知覚と命令理解におけるVLMの強みを活用することで、VLAモデルは様々な操作タスクにまたがる有望な一般化を示す。
しかし、高精度で精度の高いアプリケーションでは、さらなる適応を行なわずに性能のギャップが明らかになる。
複数のドメインからのエビデンスでは、基礎となるモデルを下流のアプリケーションと整合させるためのポストトレーニングの重要な役割を強調し、ポストトレーニング後のVLAモデルに関する広範な研究を刺激している。
VLAモデルポストトレーニングは、人間のモータースキル獲得のプロセスに類似した、与えられたタスクのために環境と対話する実施者の能力を改善するという課題に対処することを目的としている。
そこで本研究では,人間の運動学習のレンズによるVLAモデルの学習後戦略を,環境,実施,タスクの3次元に焦点をあててレビューする。
構造的分類法は,(1)環境認識の向上,(2)実施意識の向上,(3)タスク理解の深化,(4)多成分統合など,人間の学習メカニズムと整合して導入される。
最後に、後学習VLAモデルにおける重要な課題とトレンドを特定し、将来の研究を導くための概念的枠組みを確立する。
本研究は、人間の運動学習の観点からの現在のVLAモデルポストトレーニング手法の概要と、VLAモデル開発の実践的洞察を提供する。
(プロジェクトサイト:https://github.com/AoqunJin/Awesome-VLA-Post-Training)
関連論文リスト
- Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。