論文の概要: NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
- arxiv url: http://arxiv.org/abs/2602.21172v2
- Date: Wed, 25 Feb 2026 19:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 14:31:23.939133
- Title: NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
- Title(参考訳): NoRD: 推論なしで駆動するデータ効率の良いビジョンランゲージ・アクションモデル
- Authors: Ishaan Rawal, Shubh Gupta, Yihan Hu, Wei Zhan,
- Abstract要約: NORD(No Reasoning for Driving)は、自動運転のための新しいビジョン言語アクションモデルである。
60%のデータで微調整され、推論アノテーションがなく、結果としてトークンが3倍少なくなる。
我々はNORDが難易度バイアスを克服するためにGRPO(Dr. GRPO)を組み込むことによって難易度バイアスを克服していることを示す。
- 参考スコア(独自算出の注目度): 18.263966812201907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models are advancing autonomous driving by replacing modular pipelines with unified end-to-end architectures. However, current VLAs face two expensive requirements: (1) massive dataset collection, and (2) dense reasoning annotations. In this work, we address both challenges with NORD (No Reasoning for Driving). Compared to existing VLAs, NORD achieves competitive performance while being fine-tuned on <60% of the data and no reasoning annotations, resulting in 3x fewer tokens. We identify that standard Group Relative Policy Optimization (GRPO) fails to yield significant improvements when applied to policies trained on such small, reasoning-free datasets. We show that this limitation stems from difficulty bias, which disproportionately penalizes reward signals from scenarios that produce high-variance rollouts within GRPO. NORD overcomes this by incorporating Dr. GRPO, a recent algorithm designed to mitigate difficulty bias in LLMs. As a result, NORD achieves competitive performance on Waymo and NAVSIM with a fraction of the training data and no reasoning overhead, enabling more efficient autonomous systems. Website: https://nord-vla-ai.github.io/
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、モジュールパイプラインをエンドツーエンドアーキテクチャに置き換えることで、自動運転を推進している。
しかしながら、現在のVLAには、(1)大量のデータセット収集と(2)高密度な推論アノテーションという2つの高価な要件がある。
本研究では,NORD(No Reasoning for Driving)を用いて,両課題に対処する。
既存のVLAと比較すると、NORDは60%以上のデータで微調整され、推論アノテーションがないため、トークンは3倍少ない。
標準グループ相対政策最適化(GRPO)は、そのような小さく推論のないデータセットで訓練されたポリシーに適用すると、大幅な改善が得られない。
この制限は、GRPO内の高分散ロールアウトを生成するシナリオから報酬信号を不均等に罰する難易度バイアスに起因していることを示す。
NORDは、LLMの難易度バイアスを軽減するために設計された最近のアルゴリズムであるDr. GRPOを組み込むことでこれを克服する。
その結果、NORDはトレーニングデータのごく一部でWaymoとNAVSIMの競合性能を達成し、推論オーバーヘッドを伴わず、より効率的な自律システムを実現した。
ウェブサイト:https://nord-vla-ai.github.io/
関連論文リスト
- Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Hard Negative Sample-Augmented DPO Post-Training for Small Language Models [4.425580048633862]
本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。
本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。
実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-17T06:15:52Z) - Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Knowing the Answer Isn't Enough: Fixing Reasoning Path Failures in LVLMs [85.37131922131657]
我々はLVLM(Large Vision-Language Models)の重大な欠陥を明らかにした。
これらのモデルが正しい答えを知っていても、誤った推論経路を通じて頻繁にそこに到達します。
PSO(Path-Select Optimization)は,既存のLVLMの推論性能と安定性を両立させる2段階のポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T03:02:55Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine [73.74077186298523]
CoReVLAは、自動運転のための継続的学習フレームワークである。
データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。
CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
論文 参考訳(メタデータ) (2025-09-19T13:25:56Z) - Data-Efficient Time-Dependent PDE Surrogates: Graph Neural Simulators vs. Neural Operators [0.0]
時間依存偏微分方程式(PDE)の原理的代理モデルとしてニューラルグラフシミュレータ(GNS)を提案する。
GNSは、メッセージパッシングと数値的なタイムステッピングスキームを組み合わせて、瞬時微分をモデル化してPDEダイナミクスを学習する。
その結果, GNSはデータ効率が著しく高く, 比較的L2誤差が1%未満であり, 利用可能な軌道は3%に過ぎなかった。
論文 参考訳(メタデータ) (2025-09-07T17:54:23Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning [29.72531930169291]
SDFT (Self-Distillation Fine-Tuning) は, モデル自体が生成した蒸留データセットを用いて, 分散ギャップを埋める手法である。
様々なベンチマークにおけるLlama-2-chatモデルの実験結果は、SDFTが破滅的な忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2024-02-21T10:06:08Z) - REST: Enhancing Group Robustness in DNNs through Reweighted Sparse
Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。
しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-12-05T16:27:54Z) - With a Little Push, NLI Models can Robustly and Efficiently Predict
Faithfulness [19.79160738554967]
条件付き言語モデルは、入力によってサポートされない不誠実な出力を生成します。
我々は、タスク適応型データ拡張と堅牢な推論手順を組み合わせることで、純粋なNLIモデルの方がより複雑なメトリクスより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:00:04Z) - Language as a Latent Sequence: deep latent variable models for
semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。
また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。
実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-01-05T19:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。