論文の概要: Learning from Mistakes: Post-Training for Driving VLA with Takeover Data
- arxiv url: http://arxiv.org/abs/2603.14972v1
- Date: Mon, 16 Mar 2026 08:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.852764
- Title: Learning from Mistakes: Post-Training for Driving VLA with Takeover Data
- Title(参考訳): 誤解から学ぶ: テイクオーバデータによるVLAの運転後のトレーニング
- Authors: Yinfeng Gao, Deqing Liu, Qichao Zhang, Yupeng Zheng, Haochen Tian, Guang Li, Hangjun Ye, Long Chen, Da-Wei Ding, Dongbin Zhao,
- Abstract要約: TakeVLAは、2つの補完的なイノベーションを通じて欠点を克服する新しいVLAポストトレーニングフレームワークである。
まず,VLAが積極的に誤りから学ぶことができるような,占領前言語指導を導入する。
第2に,再建された乗っ取りシナリオで動作する強化微調整パラダイムであるScenario Dreamingを提案する。
- 参考スコア(独自算出の注目度): 22.44026866655379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Vision-Language-Action (VLA) paradigms in end-to-end autonomous driving rely on offline training from static datasets, leaving them vulnerable to distribution shift. Recent post-training methods use takeover data to mitigate this by augmenting the dataset with high-quality expert takeover samples, yet they suffer from two key limitations: supervision restricted to the period after the takeover moments leads to policies with limited safety margins, and passive preference optimization lacks active exploration for optimal performance. In this paper, we propose TakeVLA, a novel VLA post-training framework that overcomes these shortcomings through two complementary innovations. First, we introduce pre-takeover language supervision, which allows the VLA to learn from mistakes proactively. By explicitly teaching the model about what to do in error-prone situations, we cultivate a precautionary mindset that anticipates hazards early and substantially enlarges safety margins. Second, we propose Scenario Dreaming, a reinforcement fine-tuning paradigm that operates in reconstruceted takeover scenarios, encouraging active exploration beyond mere preference fitting. Experiments on the Bench2Drive benchmark demonstrate that TakeVLA achieves state-of-the-art closed-loop performance, surpassing the strong VLA baseline SimLingo by 4.93 in driving score, with an enhanced safety margin as evidenced by an 11.76% increase in average TTC.
- Abstract(参考訳): エンドツーエンドの自動運転における現在のVLA(Vision-Language-Action)パラダイムは、静的データセットからのオフライントレーニングに依存しており、分散シフトに対して脆弱である。
最近のポストトレーニング手法では、データセットを高品質な専門家のテイクオーバサンプルで強化することで、テイクオーバデータを緩和しているが、これらには2つの重要な制限がある: テイクオーバモーメントの後に制限された監督は、安全マージンの制限されたポリシーにつながり、パッシブ優先最適化は最適なパフォーマンスのためのアクティブな探索を欠いている。
本稿では,2つの相補的な革新を通じて,これらの欠点を克服する新しいVLAポストトレーニングフレームワークであるTakeVLAを提案する。
まず,VLAが積極的に誤りから学ぶことができるような,占領前言語指導を導入する。
エラーが発生しやすい状況で何をすべきかをモデルに明示的に教えることで、危険を早期に予測し、安全マージンを大幅に拡大する予防的マインドセットを育む。
第2にScenario Dreamingを提案する。Scenario Dreamingは、強化された微調整パラダイムで、再編成されたテイクオーバシナリオで動作する。
Bench2Driveベンチマークの実験では、TakeVLAが最先端のクローズドループ性能を達成し、強力なVLAベースラインであるSimLingoを4.93倍上回った。
関連論文リスト
- Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine [73.74077186298523]
CoReVLAは、自動運転のための継続的学習フレームワークである。
データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。
CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
論文 参考訳(メタデータ) (2025-09-19T13:25:56Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Continual Driving Policy Optimization with Closed-Loop Individualized Curricula [2.903150959383393]
閉ループ個別化カリキュラム(CLIC)を特徴とする連続運転ポリシー最適化フレームワークを開発した。
CLICは衝突予測タスクとしてAV評価をフレーム化し、各イテレーションでこれらのシナリオでAV障害が起こる確率を見積もる。
CLICは他のカリキュラムベースのトレーニング戦略を超越し、リスクのあるシナリオの管理を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-25T15:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。