論文の概要: VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.20082v1
- Date: Tue, 19 May 2026 16:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.528905
- Title: VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
- Title(参考訳): VL-DPO:優先型自律運転のための視覚言語誘導ファインタニング
- Authors: Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat,
- Abstract要約: 本稿では,エゴ車両運動予測モデルと人間の嗜好を一致させる視覚言語誘導フレームワークを提案する。
提案手法では,VLMをゼロショット推論器として利用し,事前学習したモデルのロールアウトから選好ペアを自動的に生成する。
モデルをOpen End-to-End Drivingデータセットに微調整します。
- 参考スコア(独自算出の注目度): 16.809182930531005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of autonomous driving datasets has enabled the scaling of powerful motion forecasting models. While large-scale pretraining provides strong performance, the standard imitation objective may not fully capture the complex nuances of human driving preferences. Meanwhile, recent advances in vision-language models (VLMs) have demonstrated impressive reasoning and commonsense understanding. Building on these capabilities, this paper presents VL-DPO, a vision-language-guided framework that aligns ego-vehicle motion forecasting models with human preferences. Our approach leverages a VLM as a zero-shot reasoner to automatically generate preference pairs from a pretrained model's rollouts, which are then used to finetune the model via Direct Preference Optimization (DPO). We finetune our models on the Waymo Open End-to-End Driving Dataset (WOD-E2E) and evaluate performance against held-out human preference annotations using rater feedback score (RFS) and average displacement error (ADE). Our experiments confirm that the VLM's trajectory selection is a high-quality proxy for human preference. Our final model, VL-DPO, yields an 11.94% increase in RFS and a 10.01% reduction in ADE over the pretrained model.
- Abstract(参考訳): 自律走行データセットの急速な成長により、強力なモーション予測モデルのスケーリングが可能になった。
大規模な事前訓練は強い性能をもたらすが、標準的な模倣目的は人間の運転嗜好の複雑なニュアンスを完全には捉えないかもしれない。
一方、近年の視覚言語モデル(VLM)の進歩は、印象的な推論と常識的理解を示している。
そこで本研究では,エゴ車両運動予測モデルと人間の嗜好を一致させる視覚言語誘導フレームワークであるVL-DPOを提案する。
提案手法では,VLMをゼロショット推論器として利用し,事前訓練されたモデルのロールアウトから選好ペアを自動的に生成し,直接選好最適化(DPO)を介してモデルを微調整する。
我々は、Waymo Open End-to-End Driving Dataset (WOD-E2E) にモデルを精査し、レーダフィードバックスコア(RFS)と平均変位誤差(ADE)を用いて、保持された人間の嗜好アノテーションに対する性能を評価する。
我々の実験は、VLMの軌道選択が人間の嗜好に対する高品質なプロキシであることを確認した。
最終モデルであるVL-DPOは, RFSが11.94%増加し, ADEが10.01%減少する。
関連論文リスト
- SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model [16.077387927185917]
VLA(Vision-Language-Action)モデルは、世界知識と推論能力を活用するための有望な自動運転パラダイムを提供する。
既存のVLAモデルは、自動回帰生成フレームワークを使用してアクション生成の高レイテンシに悩まされることが多い。
本稿では、自動回帰推論とフローマッチングアクションエキスパートを統合した、新しいエンドツーエンド自動運転フレームワークであるSpanVLAを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:34:19Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。
この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:59:11Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。