論文の概要: Cross-Stage Coherence in Hierarchical Driving VQA: Explicit Baselines and Learned Gated Context Projectors
- arxiv url: http://arxiv.org/abs/2604.22560v1
- Date: Fri, 24 Apr 2026 13:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.484958
- Title: Cross-Stage Coherence in Hierarchical Driving VQA: Explicit Baselines and Learned Gated Context Projectors
- Title(参考訳): 階層駆動型VQAにおけるクロスステージコヒーレンス: ベースラインの明示と学習されたゲーテッドコンテキストプロジェクタ
- Authors: Gautam Kumar Jain, Carsten Markgraf, Julian Stähler,
- Abstract要約: 本稿では,2つの相補的なメカニズムを用いて,DriveLM-nuScenes上でのクロスステージ・コンテクストパスの比較研究を行う。
明示的な変種は、追加のトレーニングなしでドメイン適応4B VLM上の3つのプロンプトベースの条件付け戦略を評価する。
暗黙の変種はゲート型コンテキストプロジェクタを導入し、あるステージから隠れ状態ベクトルを抽出し、正規化されたゲート型プロジェクションを次のステージの入力埋め込みに注入する。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Visual Question Answering (GVQA) for autonomous driving organizes reasoning into ordered stages, namely Perception, Prediction, and Planning, where planning decisions should remain consistent with the model's own perception. We present a comparative study of cross-stage context passing on DriveLM-nuScenes using two complementary mechanisms. The explicit variant evaluates three prompt-based conditioning strategies on a domain-adapted 4B VLM (Mini-InternVL2-4B-DA-DriveLM) without additional training, reducing NLI contradiction by up to 42.6% and establishing a strong zero-training baseline. The implicit variant introduces gated context projectors, which extract a hidden-state vector from one stage and inject a normalized, gated projection into the next stage's input embeddings. These projectors are jointly trained with stage-specific QLoRA adapters on a general-purpose 8B VLM (InternVL3-8B-Instruct) while updating only approximately 0.5% of parameters. The implicit variant achieves a statistically significant 34% reduction in planning-stage NLI contradiction (bootstrap 95% CIs, p < 0.05) and increases cross-stage entailment by 50%, evaluated with a multilingual NLI classifier to account for mixed-language outputs. Planning language quality also improves (CIDEr +30.3%), but lexical overlap and structural consistency degrade due to the absence of driving-domain pretraining. Since the two variants use different base models, we present them as complementary case studies: explicit context passing provides a strong training-free baseline for surface consistency, while implicit gated projection delivers significant planning-stage semantic gains, suggesting domain adaptation as a plausible next ingredient for full-spectrum improvement.
- Abstract(参考訳): 自動走行のためのグラフビジュアル質問回答(GVQA)は、計画決定がモデル自身の認識と整合したままでなければならない、知覚、予測、計画といった順序付けられた段階に推論を編成する。
本稿では,2つの相補的なメカニズムを用いて,DriveLM-nuScenes上でのクロスステージ・コンテクストパスの比較研究を行う。
この明示的な変種は、ドメイン適応4B VLM(Mini-InternVL2-4B-DA-DriveLM)上の3つのプロンプトベースの条件付け戦略を追加トレーニングなしで評価し、NLIの矛盾を最大42.6%減らし、強いゼロトレーニングベースラインを確立する。
暗黙の変種はゲート型コンテキストプロジェクタを導入し、あるステージから隠れ状態ベクトルを抽出し、正規化されたゲート型プロジェクションを次のステージの入力埋め込みに注入する。
これらのプロジェクターは、一般的な8B VLM(InternVL3-8B-Instruct)上のステージ固有のQLoRAアダプタで共同で訓練され、パラメータの約0.5%しか更新されない。
暗黙の変種は、計画段階のNLI矛盾(bootstrap 95% CIs, p < 0.05)の統計的に有意な34%の減少を実現し、混合言語出力を考慮に入れた多言語NLI分類器で評価した。
計画言語の品質も向上する(CIDEr + 30.3%)が、駆動ドメイン事前トレーニングがないため、語彙的重複と構造的一貫性は低下する。
明示的コンテキストパッシングは表面整合性のための強いトレーニングのないベースラインを提供するのに対し、暗黙的なゲートプロジェクションは重要な計画段階のセマンティックゲインを提供し、フルスペクトル改善のための妥当な次の要素としてドメイン適応が提案される。
関連論文リスト
- NCL-BU at SemEval-2026 Task 3: Fine-tuning XLM-RoBERTa for Multilingual Dimensional Sentiment Regression [5.8096845806519335]
本稿では,トラックA-サブタスク1(次元アスペクト知覚回帰)のために開発されたシステムについて述べる。
テキスト中の各アスペクトの[1, 9]範囲で、実値のVAスコアを予測することを目的としている。
論文 参考訳(メタデータ) (2026-04-10T03:38:53Z) - VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Subspace Alignment for Vision-Language Model Test-time Adaptation [82.83192844597593]
視覚言語モデル(VLM)は分布シフトに対して脆弱である。
既存のテスト時間適応法は、自己学習のための擬似ラベルとしてゼロショット予測に依存している。
両モードのセマンティック部分空間を整列させてゼロショット予測を強化するSubTTAを提案する。
論文 参考訳(メタデータ) (2026-01-13T02:02:41Z) - Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embodied Question Answering [52.69447404069251]
大規模視覚言語モデル(VLM)は、オープン語彙推論のための強力なセマンティック先行情報を提供することにより、EQAエージェントの改良を行った。
ステップレベルキャリブレーションによる探索を安定化するフレームワークPrune-Then-Planを提案する。
論文 参考訳(メタデータ) (2025-11-24T22:50:50Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Data Trajectory Alignment for LLM Domain Adaptation: A Two-Phase Synthesis Framework for Telecommunications Mathematics [6.653834890554154]
汎用大規模言語モデル (LLMs) は、電気通信のような垂直に展開されることが増えている。
本稿では2相モデルに依存しないデータキュレーションフレームワークであるData Trajectory Alignment (DTA)を提案する。
DTAはソリューションプロセス(最終回答だけでなく)を第一級の監督として扱います。
論文 参考訳(メタデータ) (2025-11-10T07:05:08Z) - Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - CLGRPO: Reasoning Ability Enhancement for Small VLMs [4.551310348498266]
SVLM(Small Vision Language Models)は、一般にパラメータサイズが2B未満のモデルを指す。
本稿では,SVLMの推論能力を高めるために,インクリメンタルトレーニング戦略(Incrmental Training Strategy)と呼ばれるポストトレーニング後の最適化パラダイムを提案する。
実験により,本手法は1B SVLMの推論能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-06-22T14:32:15Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。