Fugu-MT 論文翻訳(概要): Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends

論文の概要: Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends

arxiv url: http://arxiv.org/abs/2506.20966v1
Date: Thu, 26 Jun 2025 03:06:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:09.954343
Title: Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends
Title（参考訳）: トレーニング後のVLAモデルと人間の運動学習の並列性:進歩,課題,トレンド
Authors: Tian-Yu Xiang, Ao-Qun Jin, Xiao-Hu Zhou, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Sheng-Bin Duan, Fu-Chao Xie, Wen-Kai Wang, Si-Cheng Wang, Ling-Yun Li, Tian Tu, Zeng-Guang Hou,
Abstract要約: 視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM) 本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
参考スコア（独自算出の注目度）: 11.678954304546988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language-action (VLA) models extend vision-language models (VLM) by integrating action generation modules for robotic manipulation. Leveraging strengths of VLM in vision perception and instruction understanding, VLA models exhibit promising generalization across diverse manipulation tasks. However, applications demanding high precision and accuracy reveal performance gaps without further adaptation. Evidence from multiple domains highlights the critical role of post-training to align foundational models with downstream applications, spurring extensive research on post-training VLA models. VLA model post-training aims to address the challenge of improving an embodiment's ability to interact with the environment for the given tasks, analogous to the process of humans motor skills acquisition. Accordingly, this paper reviews post-training strategies for VLA models through the lens of human motor learning, focusing on three dimensions: environments, embodiments, and tasks. A structured taxonomy is introduced aligned with human learning mechanisms: (1) enhancing environmental perception, (2) improving embodiment awareness, (3) deepening task comprehension, and (4) multi-component integration. Finally, key challenges and trends in post-training VLA models are identified, establishing a conceptual framework to guide future research. This work delivers both a comprehensive overview of current VLA model post-training methods from a human motor learning perspective and practical insights for VLA model development. (Project website: https://github.com/AoqunJin/Awesome-VLA-Post-Training)
Abstract（参考訳）: 視覚言語アクション(VLA)モデルは、ロボット操作のためのアクション生成モジュールを統合することで、視覚言語モデル(VLM)を拡張する。視覚知覚と命令理解におけるVLMの強みを活用することで、VLAモデルは様々な操作タスクにまたがる有望な一般化を示す。しかし、高精度で精度の高いアプリケーションでは、さらなる適応を行なわずに性能のギャップが明らかになる。複数のドメインからのエビデンスでは、基礎となるモデルを下流のアプリケーションと整合させるためのポストトレーニングの重要な役割を強調し、ポストトレーニング後のVLAモデルに関する広範な研究を刺激している。 VLAモデルポストトレーニングは、人間のモータースキル獲得のプロセスに類似した、与えられたタスクのために環境と対話する実施者の能力を改善するという課題に対処することを目的としている。そこで本研究では,人間の運動学習のレンズによるVLAモデルの学習後戦略を,環境,実施,タスクの3次元に焦点をあててレビューする。構造的分類法は,(1)環境認識の向上,(2)実施意識の向上,(3)タスク理解の深化,(4)多成分統合など,人間の学習メカニズムと整合して導入される。最後に、後学習VLAモデルにおける重要な課題とトレンドを特定し、将来の研究を導くための概念的枠組みを確立する。本研究は、人間の運動学習の観点からの現在のVLAモデルポストトレーニング手法の概要と、VLAモデル開発の実践的洞察を提供する。 (プロジェクトサイト:https://github.com/AoqunJin/Awesome-VLA-Post-Training)

関連論文リスト

Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文参考訳（メタデータ） (2025-06-24T17:59:57Z)
From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。 VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-28T02:53:48Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。 VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文参考訳（メタデータ） (2024-11-04T18:01:34Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。 VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文参考訳（メタデータ） (2024-09-19T16:33:00Z)
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文参考訳（メタデータ） (2024-09-19T07:10:18Z)
A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文参考訳（メタデータ） (2024-05-23T01:43:54Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。