論文の概要: Towards Fast, Memory-based and Data-Efficient Vision-Language Policy
- arxiv url: http://arxiv.org/abs/2503.10322v1
- Date: Thu, 13 Mar 2025 12:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:46.276317
- Title: Towards Fast, Memory-based and Data-Efficient Vision-Language Policy
- Title(参考訳): 高速, メモリベース, データ効率なビジョンランゲージ政策に向けて
- Authors: Haoxuan Li, Sixu Yan, Yuhan Li, Xinggang Wang,
- Abstract要約: インターネット規模の視覚言語データに基づいて事前訓練された視覚言語モデル(VLM)は、その知識をロボット学習に伝達する可能性を実証している。
しかし,既存のパラダイムでは,(1)大規模モデルパラメータによる高価な推論コスト,(2)ミスマッチしたデータモダリティによる頻繁なドメインシフト,(3)過去の経験や将来の経験を扱うための限られた能力,という3つの重要な課題に直面している。
- 参考スコア(独自算出の注目度): 38.07934201731194
- License:
- Abstract: Vision Language Models (VLMs) pretrained on Internet-scale vision-language data have demonstrated the potential to transfer their knowledge to robotic learning. However, the existing paradigm encounters three critical challenges: (1) expensive inference cost resulting from large-scale model parameters, (2) frequent domain shifts caused by mismatched data modalities, and (3) limited capacity to handle past or future experiences. In this work, we propose LiteVLP, a lightweight, memory-based, and general-purpose vision-language policy generation model. LiteVLP is built upon a pre-trained 1B-parameter VLM and fine-tuned on a tiny-scale and conversation-style robotic dataset. Through extensive experiments, we demonstrate that LiteVLP outperforms state-of-the-art vision-language policy on VIMA-Bench, with minimal training time. Furthermore, LiteVLP exhibits superior inference speed while maintaining exceptional high accuracy. In long-horizon manipulation tasks, LiteVLP also shows remarkable memory ability, outperforming the best-performing baseline model by 18.8%. These results highlight LiteVLP as a promising model to integrating the intelligence of VLMs into robotic learning.
- Abstract(参考訳): インターネット規模の視覚言語データに基づいて事前訓練された視覚言語モデル(VLM)は、その知識をロボット学習に伝達する可能性を実証している。
しかし,既存のパラダイムでは,(1)大規模モデルパラメータによる高価な推論コスト,(2)ミスマッチしたデータモダリティによる頻繁なドメインシフト,(3)過去の経験や将来の経験を扱うための限られた能力,という3つの重要な課題に直面している。
本稿では,ライトウェイトでメモリベース,汎用的なビジョン言語ポリシー生成モデルであるLiteVLPを提案する。
LiteVLPは、トレーニング済みの1BパラメータVLM上に構築され、小さなスケールと会話スタイルのロボットデータセットに基づいて微調整される。
広汎な実験により、LiteVLPは、VIMA-Bench上での最先端のビジョン言語ポリシーよりも、最小限のトレーニング時間で優れることを示した。
さらに、LiteVLPは、非常に高い精度を維持しながら、優れた推論速度を示す。
長期の操作タスクでは、LiteVLPはメモリ能力も優れており、最高のパフォーマンスのベースラインモデルよりも18.8%向上している。
これらの結果は、VLMのインテリジェンスをロボット学習に統合するための有望なモデルとしてLiteVLPを強調している。
関連論文リスト
- TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。