Fugu-MT 論文翻訳(概要): StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

論文の概要: StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

arxiv url: http://arxiv.org/abs/2603.09482v1
Date: Tue, 10 Mar 2026 10:33:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.15344
Title: StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving
Title（参考訳）: StyleVLA: 自動運転のための運転スタイル認識型視覚言語行動モデル
Authors: Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz,
Abstract要約: StyleVLAは物理インフォームされたVLAフレームワークで、多種多様な物理的に妥当な運転行動を生成する。我々は,1.2k以上のシナリオ,76k Bird's Eye View (BEV) サンプル,42k First Person View (FPV) サンプルを用いた大規模インストラクションデータセットを構築した。実験の結果、StyleVLAはプロプライエタリなモデルや最先端のVLAモデルよりも大幅に優れていた。
参考スコア（独自算出の注目度）: 8.903468887918754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Language Models (VLMs) bridge visual perception and linguistic reasoning. In Autonomous Driving (AD), this synergy has enabled Vision Language Action (VLA) models, which translate high-level multimodal understanding into driving behaviors, typically represented as future trajectories. However, existing VLA models mainly generate generic collision-free trajectories. Beyond collision avoidance, adapting to diverse driving styles (e.g., sporty, comfortable) is essential for personalized driving. Moreover, many methods treat trajectory generation as naive token prediction, which can produce kinematically infeasible actions. To address these limitations, we present StyleVLA, a physics-informed VLA framework for generating diverse and physically plausible driving behaviors. We introduce a hybrid loss that combines a kinematic consistency constraint with a continuous regression head to improve trajectory feasibility. To train StyleVLA, built on Qwen3-VL-4B, we construct a large-scale instruction dataset with over 1.2k scenarios, 76k Bird's Eye View (BEV) samples, and 42k First Person View (FPV) samples, with ground-truth trajectories for five driving styles and natural-language instructions. Experiments show that our 4B-parameter StyleVLA significantly outperforms proprietary models (e.g., Gemini-3-Pro) and state-of-the-art VLA models. Using a composite driving score measuring success rate, physical feasibility, and style adherence, StyleVLA achieves 0.55 on BEV and 0.51 on FPV, versus 0.32 and 0.35 for Gemini-3-Pro. These results show that a specialized, physics-informed, lightweight model can surpass closed-source models on domain-specific tasks.
Abstract（参考訳）: 視覚言語モデル(VLM)は視覚知覚と言語推論を橋渡しする。自律運転(AD)において、このシナジーはビジョン言語行動(VLA)モデルを可能にし、高レベルのマルチモーダル理解を運転行動に変換する。しかし、既存のVLAモデルは、主に一般的な衝突のない軌道を生成する。衝突回避以外にも、多様な運転スタイル(例えば、スポーツ、快適)に適応することは、パーソナライズされた運転に不可欠である。さらに、多くの手法は、軌道生成を自然なトークン予測として扱い、運動論的に不可能な動作を生成することができる。これらの制約に対処するため,多種多様かつ物理的に妥当な運転行動を生成する物理インフォームドVLAフレームワークであるStyleVLAを提案する。運動的一貫性制約を連続回帰ヘッドと組み合わせたハイブリッド損失を導入し、軌道実現性を向上させる。 Qwen3-VL-4BをベースとしたStyleVLAのトレーニングには,1.2k以上のシナリオ,76k Bird's Eye View (BEV) サンプル,42k First Person View (FPV) サンプルを備えた大規模インストラクションデータセットを構築した。実験の結果、我々の4BパラメータスタイルVLAはプロプライエタリモデル(例:Gemini-3-Pro)と最先端のVLAモデルよりも大幅に優れていた。 StyleVLAは、成功率、物理的実現性、スタイルの適合性を測定する複合駆動スコアを使用して、BEVで0.55、FPVで0.51、Gemini-3-Proで0.32、0.35を達成している。これらの結果から, 専門的, 物理インフォームド, 軽量モデルが, ドメイン固有タスクのクローズドソースモデルを上回ることが示唆された。

関連論文リスト

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation [58.21084913574353]
我々は,世界力学を暗黙的に理解したVLAモデルを実現するシンプルなアプローチであるPri4Rを紹介する。 Pri4Rは3Dトラックを予測する軽量なポイントトラックヘッドでVLAを強化している。 3Dポイントトラック予測は,アクションワールドダイナミクスを学習するための効果的な監視対象であることを示す。
論文参考訳（メタデータ） (2026-03-02T07:23:53Z)
VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving [26.557803260279258]
自律運転のためのクロスビュー3D幾何モデリング能力は自明であるが、既存のビジョンランゲージモデルには本質的にこの能力がない。本稿では,視覚言語モデルに自律走行のための幾何学的グラウンドリングを用いた新しいアーキテクチャ,VGGDriveを提案する。
論文参考訳（メタデータ） (2026-02-24T11:33:44Z)
DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。 NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文参考訳（メタデータ） (2025-10-14T17:59:47Z)
Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM) 本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文参考訳（メタデータ） (2025-06-26T03:06:57Z)
Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文参考訳（メタデータ） (2025-06-24T17:59:57Z)
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文参考訳（メタデータ） (2025-06-16T17:58:50Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。