論文の概要: MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2504.00379v1
- Date: Tue, 01 Apr 2025 02:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:14.433534
- Title: MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving
- Title(参考訳): MPDrive: 自動走行のためのマーカーベースプロンプト学習による空間理解の改善
- Authors: Zhiyuan Zhang, Xiaofan Li, Zhihao Xu, Wenjie Peng, Zijian Zhou, Miaojing Shi, Shuangping Huang,
- Abstract要約: マーカベースのPmpt Learning framework (MPDrive) は、簡潔な視覚マーカーによる空間座標を表す。
MPDriveは、特に高度な空間的理解を必要とする場合に、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 23.012850820921592
- License:
- Abstract: Autonomous driving visual question answering (AD-VQA) aims to answer questions related to perception, prediction, and planning based on given driving scene images, heavily relying on the model's spatial understanding capabilities. Prior works typically express spatial information through textual representations of coordinates, resulting in semantic gaps between visual coordinate representations and textual descriptions. This oversight hinders the accurate transmission of spatial information and increases the expressive burden. To address this, we propose a novel Marker-based Prompt learning framework (MPDrive), which represents spatial coordinates by concise visual markers, ensuring linguistic expressive consistency and enhancing the accuracy of both visual perception and spatial expression in AD-VQA. Specifically, we create marker images by employing a detection expert to overlay object regions with numerical labels, converting complex textual coordinate generation into straightforward text-based visual marker predictions. Moreover, we fuse original and marker images as scene-level features and integrate them with detection priors to derive instance-level features. By combining these features, we construct dual-granularity visual prompts that stimulate the LLM's spatial perception capabilities. Extensive experiments on the DriveLM and CODA-LM datasets show that MPDrive achieves state-of-the-art performance, particularly in cases requiring sophisticated spatial understanding.
- Abstract(参考訳): 自律運転視覚質問応答(AD-VQA)は、与えられた運転シーン画像に基づいて知覚、予測、計画に関連する質問に答えることを目的としており、モデルの空間的理解能力に大きく依存している。
先行研究は通常、座標のテキスト表現を通して空間情報を表現し、結果として視覚座標表現とテキスト記述の間に意味的なギャップが生じる。
これにより、空間情報の正確な送信が妨げられ、表現負担が増大する。
そこで本稿では,視覚的マーカーによる空間座標を簡潔に表現し,言語的表現の整合性を確保し,AD-VQAにおける視覚的知覚と空間的表現の精度を向上する,新しいMPDrive(Marker-based Prompt Learning framework)を提案する。
具体的には、検出エキスパートを用いて、数値ラベルでオブジェクト領域をオーバーレイし、複雑なテキスト座標生成を簡単なテキストベースの視覚的マーカー予測に変換することで、マーカー画像を作成する。
さらに,オリジナル画像とマーカ画像をシーンレベルの特徴として融合し,インスタンスレベルの特徴を導出するための先行検出と統合する。
これらの特徴を組み合わせることで、LLMの空間知覚能力を刺激する二重粒度視覚プロンプトを構築する。
DriveLMとCODA-LMデータセットの大規模な実験は、特に高度な空間的理解を必要とする場合、MPDriveが最先端のパフォーマンスを達成することを示している。
関連論文リスト
- AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks [59.12788703213031]
我々は、画像とビデオの両方の領域レベルの理解を容易にするために設計された大規模な言語モデルであるOmni-RGPTを提案する。
視覚的特徴空間内の対象領域をハイライトするトークンセットであるToken Markを紹介した。
また、大規模領域レベルのビデオインストラクションデータセット(VID-300k)も導入する。
論文 参考訳(メタデータ) (2025-01-14T18:58:04Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Exploring and Distilling Cross-Modal Information for Image Captioning [47.62261144821135]
このような理解には、関連した画像領域に対する視覚的注意と、コヒーレントな特徴に対する意味的注意が必要であると論じる。
トランスフォーマーに基づくグローバル・ローカル情報探索・蒸留手法を提案する。
我々のTransformerベースのモデルでは、COCOテストセットのオフラインCOCO評価においてCIDErスコアが129.3に達し、精度、速度、パラメータ予算の点で著しく効率が良い。
論文 参考訳(メタデータ) (2020-02-28T07:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。