論文の概要: NudgeVAD: Language-Nudged End-to-End Driving via FiLM Residuals
- arxiv url: http://arxiv.org/abs/2605.24531v1
- Date: Sat, 23 May 2026 11:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.167268
- Title: NudgeVAD: Language-Nudged End-to-End Driving via FiLM Residuals
- Title(参考訳): NudgeVAD:FILM残量による言語依存のエンドツーエンド運転
- Authors: Chieh-Chi Yang, Yu-Hsiang Chen, Yi-Ting Chen,
- Abstract要約: NudgeVAD はフリーズプランナーの残留フレームワークで、VAD 軌跡へのヌッジとして言語を使用する。
言語は普遍的に加法的でないことを示し、分類的なコマンドチャネルが信頼できない場合に最も価値がある。
- 参考スコア(独自算出の注目度): 7.526208738008651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural-language instructions promise controllable end-to-end driving, but their benefit can be hidden when planners already receive reliable high-level commands. We propose NudgeVAD, a frozen-planner residual framework that uses language as a calibrated nudge to a VAD trajectory. With identity-initialized FiLM and a zero-initialized residual head, NudgeVAD is equivalent to the frozen planner at initialization, so learned deviations arise only from language-conditioned residuals. We evaluate NudgeVAD along a command-reliability axis. With reliable commands, language improves the initial planner but becomes nearly redundant once compared against VAD-FT (UNCOND), a compute-matched VAD model fine-tuned without language. With random commands, however, language becomes essential: detaching text degrades ADE6s to 3.166 m, while NudgeVAD with text recovers 2.806 m and outperforms VAD-FT (UNCOND) by 0.312 m. These results show that language is not universally additive; it is most valuable when the categorical command channel is unreliable.
- Abstract(参考訳): 自然言語命令は制御可能なエンドツーエンドの駆動を約束するが、プランナーが既に信頼できる高レベルコマンドを受け取ると、その利点は隠蔽される。
NudgeVADを提案する。NudgeVADは,VAD軌道に対するキャリブレーションヌッジとして言語を使用するフリーズプランナー残差フレームワークである。
アイデンティティ初期化FiLMとゼロ初期化残留ヘッドにより、NudgeVADは初期化時に凍結プランナーと等価であるため、学習された偏差は言語条件の残差からのみ生じる。
我々はNudgeVADを指令信頼性軸に沿って評価する。
信頼できるコマンドによって、言語は初期プランナーを改善するが、言語なしで微調整された計算マッチング型VADモデルであるVAD-FT(UNCOND)と比較すると、ほぼ冗長になる。
テキストはADE6sを3.166mに分解し、NudgeVADは2.806mを回復し、VAD-FT(UNCOND)を0.312m上回る。
これらの結果は、言語が普遍的に加法的でないことを示している。
関連論文リスト
- NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving [16.99502075851124]
未知のターゲットをまたいだ一般化は、オープンワールドの認識にとって重要である。
次ステップのOpen-Vabulary Autoregression (NOVA)は、3Dトラッキングを断片化された距離ベースマッチングから従来のセマンティックモデリングへシフトする。
論文 参考訳(メタデータ) (2026-03-06T13:12:28Z) - Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models [2.2727733134290813]
doScenesは、noScenesのグラウンドトゥルースモーションにフリーフォーム命令をリンクする最初の実世界のデータセットである。
オープンソースMLLMベースのエンドツーエンド駆動フレームワークであるOpenEMMAを採用しています。
我々は、doScenesディレクティブを乗客スタイルのプロンプトとしてOpenEMMAのビジョン言語インタフェースに統合する。
論文 参考訳(メタデータ) (2026-02-04T03:44:56Z) - PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15 [0.41998444721319217]
大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究では、各ネットワークフローをコンパクトなテキストレコードに変換し、軽量でドメインにインスパイアされたフラグで拡張することで、プロンプトオンリーなアプローチを評価する。
ゼロショット,命令誘導,スプリットショットを比較して,同一のスプリット下での強い神経ベースライン,精度,精度,リコール,F1,マクロスコアを比較した。
論文 参考訳(メタデータ) (2025-10-18T02:11:50Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文 参考訳(メタデータ) (2021-03-10T09:15:19Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。