論文の概要: Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better
- arxiv url: http://arxiv.org/abs/2505.23705v1
- Date: Thu, 29 May 2025 17:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.047012
- Title: Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better
- Title(参考訳): 知識絶縁型ビジョンランゲージ・アクションモデル: 速く訓練し、速く実行し、より一般化する
- Authors: Danny Driess, Jost Tobias Springenberg, Brian Ichter, Lili Yu, Adrian Li-Bell, Karl Pertsch, Allen Z. Ren, Homer Walke, Quan Vuong, Lucy Xiaoyang Shi, Sergey Levine,
- Abstract要約: 視覚言語アクション(VLA)モデルは、エンド・ツー・エンドの学習とWebスケール視覚言語モデル(VLM)トレーニングからの意味知識の伝達を組み合わせたモデルである。
最も強力なVLMは数十億から数百億のパラメータを持ち、リアルタイム推論の障害となる。
近年のVLAモデルは、アクションエキスパートや連続出力ヘッドのような効率的な連続制御のための特別なモジュールを使用している。
このような専門家を内面的に含むと、トレーニング速度と知識伝達の両方に悪影響を及ぼすことが明らかとなった。
- 参考スコア(独自算出の注目度): 58.559985503802054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models provide a powerful approach to training control policies for physical systems, such as robots, by combining end-to-end learning with transfer of semantic knowledge from web-scale vision-language model (VLM) training. However, the constraints of real-time control are often at odds with the design of VLMs: the most powerful VLMs have tens or hundreds of billions of parameters, presenting an obstacle to real-time inference, and operate on discrete tokens rather than the continuous-valued outputs that are required for controlling robots. To address this challenge, recent VLA models have used specialized modules for efficient continuous control, such as action experts or continuous output heads, which typically require adding new untrained parameters to the pretrained VLM backbone. While these modules improve real-time and control capabilities, it remains an open question whether they preserve or degrade the semantic knowledge contained in the pretrained VLM, and what effect they have on the VLA training dynamics. In this paper, we study this question in the context of VLAs that include a continuous diffusion or flow matching action expert, showing that naively including such experts significantly harms both training speed and knowledge transfer. We provide an extensive analysis of various design choices, their impact on performance and knowledge transfer, and propose a technique for insulating the VLM backbone during VLA training that mitigates this issue. Videos are available at https://pi.website/research/knowledge_insulation.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、エンド・ツー・エンドの学習とWebスケール視覚言語モデル(VLM)トレーニングからの意味知識の伝達を組み合わせることで、ロボットなどの物理システムの制御ポリシーをトレーニングするための強力なアプローチを提供する。
しかしながら、リアルタイム制御の制約は、VLMの設計と矛盾することが多い: 最も強力なVLMは、数十から数百億のパラメータを持ち、リアルタイム推論の障害を示し、ロボットを制御するのに必要な連続的な値の出力ではなく、個別のトークンで操作する。
この課題に対処するため、最近のVLAモデルはアクションエキスパートや連続出力ヘッドのような効率的な連続制御のための特別なモジュールを使用しており、通常はトレーニング済みのVLMバックボーンに新しい未学習パラメータを追加する必要がある。
これらのモジュールはリアルタイムと制御能力を向上するが、事前訓練されたVLMに含まれる意味知識を保存または劣化させるか、VLAトレーニングのダイナミクスにどのような影響を与えるかは未解決のままである。
本稿では, 連続拡散やフローマッチング行動の専門家を含むVLAの文脈でこの問題を考察し, 学習速度と知識伝達の双方に大きな影響を与えていることを示す。
本稿では,VLAトレーニング中のVLMバックボーンを絶縁する手法を提案する。
ビデオはhttps://pi.website/research/knowledge_insulation.comで公開されている。
関連論文リスト
- CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering [27.812611421754482]
連続視覚質問応答 (VQA) のためのMLLMs-based dual momentum Mixture-of-Experts (CL-MoE) フレームワークを提案する。
MLLMと連続学習を統合し,LLMの豊富なコモンセンス知識を活用する。
提案手法は,10VQAタスクにおける最先端性能を実現し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-03-01T09:25:23Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - VLM-Assisted Continual learning for Visual Question Answering in Self-Driving [26.413685340816436]
本稿では,自律運転における視覚質問応答(VQA)課題を解決するための新しい手法を提案する。
自動運転において、VQAはシステムが周囲について理解し、推論できるようにする上で重要な役割を担っている。
本稿では,視覚言語モデルと選択的記憶再生と知識蒸留を組み合わせた新しい連続学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-02T16:27:44Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。