論文の概要: Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2505.23757v1
- Date: Thu, 29 May 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.083734
- Title: Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models
- Title(参考訳): Impromptu VLA: ビジョン・ランゲージ・アクション・モデルのためのオープンウェイトとオープンデータ
- Authors: Haohan Chi, Huan-ang Gao, Ziming Liu, Jianing Liu, Chenyu Liu, Jinwei Li, Kaisen Yang, Yangcheng Yu, Zeda Wang, Wenyi Li, Leichen Wang, Xingtao Hu, Hao Sun, Hang Zhao, Hao Zhao,
- Abstract要約: 自律走行のためのVLA(Vision-Language-Action)モデルは、非構造的なコーナーケースのシナリオにおいて、将来性を示す。
Inmpromptu VLA: 8万以上の細かなキュレートされたビデオクリップを紹介します。
このデータセットは,4つの挑戦的未構造化カテゴリの新たな分類に基づいて構築され,リッチで計画指向の質問応答アノテーションと行動軌跡を特徴とする。
- 参考スコア(独自算出の注目度): 31.566051946153802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models for autonomous driving show promise but falter in unstructured corner case scenarios, largely due to a scarcity of targeted benchmarks. To address this, we introduce Impromptu VLA. Our core contribution is the Impromptu VLA Dataset: over 80,000 meticulously curated video clips, distilled from over 2M source clips sourced from 8 open-source large-scale datasets. This dataset is built upon our novel taxonomy of four challenging unstructured categories and features rich, planning-oriented question-answering annotations and action trajectories. Crucially, experiments demonstrate that VLAs trained with our dataset achieve substantial performance gains on established benchmarks--improving closed-loop NeuroNCAP scores and collision rates, and reaching near state-of-the-art L2 accuracy in open-loop nuScenes trajectory prediction. Furthermore, our Q&A suite serves as an effective diagnostic, revealing clear VLM improvements in perception, prediction, and planning. Our code, data and models are available at https://github.com/ahydchh/Impromptu-VLA.
- Abstract(参考訳): 自動運転のためのVLA(Vision-Language-Action)モデルは、未構造化のコーナーケースのシナリオでは、ほとんどターゲットのベンチマークが不足しているため、将来性を示す。
これを解決するために、Impromptu VLAを紹介する。
8つのオープンソースの大規模データセットから得られた200万以上のソースクリップから抽出された80,000回あまりの精巧にキュレートされたビデオクリップです。
このデータセットは,4つの挑戦的未構造化カテゴリの新たな分類に基づいて構築され,リッチで計画指向の質問応答アノテーションと行動軌跡を特徴とする。
重要な実験は、我々のデータセットでトレーニングされたVLAが、クローズドループニューロNCAPスコアと衝突率を改善し、オープンループニューScenesの軌跡予測において最先端のL2精度に達するという、確立されたベンチマークにおいて、かなりの性能向上を達成したことである。
さらに、我々のQ&Aスイートは効果的な診断として機能し、認識、予測、計画におけるVLMの改善を明らかにします。
私たちのコード、データ、モデルはhttps://github.com/ahydchh/Impromptu-VLA.comで公開されています。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Expand VSR Benchmark for VLLM to Expertize in Spatial Rules [11.320245739677826]
視覚的空間推論は人間の認知の基本的な部分であり、クロスインスタンスの微妙な認識を必要とする。
視覚的位置推論に特化した視覚大言語モデル(VLLM)には、十分な量と品質評価と最適化データセットが不足している。
現状のVLLMでは,言語命令に対する過敏性や視覚的位置情報に対する過敏性の矛盾がみられた。
我々の知る限り、拡散モデルを用いて空間的に位置決めされた画像データを協調的に拡張し、元のビジュアルエンコーディングを統合した。
論文 参考訳(メタデータ) (2024-12-24T07:13:17Z) - VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery [4.12931136981508]
ロボットおよび腹腔鏡下手術に特化して設計された新しいビデオ言語(VL)事前学習フレームワークであるVidLPROを紹介する。
VidLPROは、ビデオテキストコントラスト学習、ビデオテキストマッチング、マスキング言語モデリングの目的を統合し、リッチなVL表現を学習する。
我々のモデルは21.5%の精度と15.7%のF1スコアの改善を示し、新しいベンチマークをフィールドに設定する。
論文 参考訳(メタデータ) (2024-09-07T06:33:12Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario [19.730287885060633]
交通安全記述・分析は、保険検査から事故防止まで幅広い分野で重要な役割を担っている。
本稿では,都市シナリオ用に設計されたビジュアル言語モデル(VLM)のための新しい微調整フレームワークであるCityLLaVAを紹介する。
論文 参考訳(メタデータ) (2024-05-06T06:38:49Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。