論文の概要: NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
- arxiv url: http://arxiv.org/abs/2602.21172v1
- Date: Tue, 24 Feb 2026 18:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.878123
- Title: NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
- Title(参考訳): NoRD: 推論なしで駆動するデータ効率の良いビジョンランゲージ・アクションモデル
- Authors: Ishaan Rawal, Shubh Gupta, Yihan Hu, Wei Zhan,
- Abstract要約: Vision-Language-Actionモデルは、モジュールパイプラインをエンドツーエンドアーキテクチャに置き換えることで、自律運転を推進している。
Modelnameは、トレーニングデータのごく一部でNAVSIM上での競合性能を実現し、推論オーバーヘッドがなく、より効率的なシステムを実現する。
- 参考スコア(独自算出の注目度): 18.263966812201907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models are advancing autonomous driving by replacing modular pipelines with unified end-to-end architectures. However, current VLAs face two expensive requirements: (1) massive dataset collection, and (2) dense reasoning annotations. In this work, we address both challenges with \modelname (\textbf{No} \textbf{R}easoning for \textbf{D}riving). Compared to existing VLAs, \modelname achieves competitive performance while being fine-tuned on $<$60\% of the data and no reasoning annotations, resulting in 3$\times$ fewer tokens. We identify that standard Group Relative Policy Optimization (GRPO) fails to yield significant improvements when applied to policies trained on such small, reasoning-free datasets. We show that this limitation stems from difficulty bias, which disproportionately penalizes reward signals from scenarios that produce high-variance rollouts within GRPO. \modelname overcomes this by incorporating Dr.~GRPO, a recent algorithm designed to mitigate difficulty bias in LLMs. As a result, \modelname achieves competitive performance on Waymo and NAVSIM with a fraction of the training data and no reasoning overhead, enabling more efficient autonomous systems.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、モジュールパイプラインをエンドツーエンドアーキテクチャに置き換えることで、自動運転を推進している。
しかしながら、現在のVLAには、(1)大量のデータセット収集と(2)高密度な推論アノテーションという2つの高価な要件がある。
本研究では、両課題を \modelname (\textbf{No} \textbf{R}easoning for \textbf{D}riving) で解決する。
既存のVLAと比較して、 \modelnameはデータの$<60\%で微調整され、推論アノテーションがないため、3$\times$より少ないトークンとなる。
標準グループ相対政策最適化(GRPO)は、そのような小さく推論のないデータセットで訓練されたポリシーに適用すると、大幅な改善が得られない。
この制限は、GRPO内の高分散ロールアウトを生成するシナリオから報酬信号を不均等に罰する難易度バイアスに起因していることを示す。
\modelnameはDrを組み込むことでこれを克服する。
GRPO - LLMの難易度バイアスを軽減するために設計されたアルゴリズム。
結果として、Shamodelnameは、トレーニングデータのごく一部でWaymoとNAVSIMの競合性能を達成し、推論オーバーヘッドを伴わず、より効率的な自律システムを実現する。
関連論文リスト
- Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Hard Negative Sample-Augmented DPO Post-Training for Small Language Models [4.425580048633862]
本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。
本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。
実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-17T06:15:52Z) - Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Language as a Latent Sequence: deep latent variable models for
semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。
また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。
実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-01-05T19:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。