論文の概要: LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement
- arxiv url: http://arxiv.org/abs/2411.12980v2
- Date: Mon, 25 Nov 2024 12:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:51.030826
- Title: LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement
- Title(参考訳): LaVida Drive: 自動走行のための視覚-テキストインタラクションVLM
- Authors: Siwen Jiao, Yangyi Fang, Baoyun Peng, Wangqun Chen, Bharadwaj Veeravalli,
- Abstract要約: 本稿では,自律運転のための新しい,効率的なVQAフレームワークであるLaVida Driveを紹介する。
LaVida Driveは、詳細な視覚知覚のための高解像度入力を維持しながら、時間データをシームレスに統合する。
複雑な詳細のための高分解能データを保持し、時間解析のために低分解能入力を使用することで空間処理を最適化する。
- 参考スコア(独自算出の注目度): 4.534832757549232
- License:
- Abstract: Recent advancements in Visual Language Models (VLMs) have made them crucial for visual question answering (VQA) in autonomous driving, enabling natural human-vehicle interactions. However, existing methods often struggle in dynamic driving environments, as they usually focus on static images or videos and rely on downsampling to manage computational costs. This results in the loss of critical details and the difficulty in effectively integrating spatial and temporal information, undermining fine-grained perception and temporal coherence essential for effective decision-making. To tackle these challenges, we introduce LaVida Drive, a novel and efficient VQA framework for autonomous driving. LaVida Drive seamlessly integrates temporal data while maintaining high-resolution inputs for detailed visual perception. It optimizes spatial processing by retaining high-resolution data for intricate details and using lower-resolution inputs for temporal analysis to focus on motion-related features, thereby boosting computational efficiency. The core of LaVida Drive consists of two modules: the \textit{Query-aware Token Selection} module and the \textit{Spatial-Temporal Token Recovery and Enhancement} module. The former dynamically selects the most relevant visual tokens based on semantic alignment with the input query, reducing the token count from high-resolution spatial input. The latter ensures smooth and coherent interactions between spatial and temporal information, preserving contextual continuity across frames. Extensive experiments on various autonomous driving question-answering benchmarks show that LaVida Drive significantly reduces visual tokens, enhances efficiency, and improves overall performance.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、自律運転における視覚的質問応答(VQA)に欠かせないものとなり、自然な人間と車両の相互作用を可能にしている。
しかしながら、既存の手法は、通常静的画像やビデオに焦点を当て、計算コストを管理するためにダウンサンプリングに依存するため、動的運転環境に苦しむことが多い。
これにより、重要な詳細が失われ、空間的・時間的情報を効果的に統合することが困難になり、効果的な意思決定に不可欠な微粒な知覚と時間的一貫性が損なわれる。
これらの課題に対処するために、自律運転のための新しく効率的なVQAフレームワークであるLaVida Driveを紹介した。
LaVida Driveは、詳細な視覚知覚のための高解像度入力を維持しながら、時間データをシームレスに統合する。
複雑な詳細のための高解像度データを保持し、時間的分析のために低解像度の入力を使用して動きに関連した特徴にフォーカスすることで空間処理を最適化し、計算効率を向上する。
LaVida Driveのコアは2つのモジュールで構成されている: \textit{Query-aware Token Selection}モジュールと \textit{Spatial-Temporal Token Recovery and Enhancement}モジュール。
前者は、入力クエリとのセマンティックアライメントに基づいて、最も関連性の高い視覚トークンを動的に選択し、トークンカウントを高解像度空間入力から低減する。
後者は空間情報と時間情報の間のスムーズでコヒーレントな相互作用を保証し、フレーム間のコンテキスト連続性を保存する。
様々な自律運転質問回答ベンチマークに関する大規模な実験は、LaVida Driveが視覚トークンを大幅に削減し、効率を向上し、全体的なパフォーマンスを向上させることを示している。
関連論文リスト
- Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment [2.3575550107698016]
AV中心の時間的注意符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
マップとルートのコンテキストを理解するために,コンテキストマップの抽出にコンテキストエンコーダを用いる。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-12T02:34:44Z) - Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文 参考訳(メタデータ) (2024-01-27T01:01:58Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain
Adaptation [152.60469768559878]
ShiFTは、自動運転のための最大規模のマルチタスク合成データセットである。
曇り、雨と霧の強さ、昼の時間、車と歩行者の密度を個別に連続的に変化させる。
私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shift.comで公開されています。
論文 参考訳(メタデータ) (2022-06-16T17:59:52Z) - CARNet: A Dynamic Autoencoder for Learning Latent Dynamics in Autonomous
Driving Tasks [11.489187712465325]
自律運転システムは、世界の抽象的な記述を形成するために、様々なセンサから収集した情報を効果的に活用すべきである。
オートエンコーダのようなディープラーニングモデルは、受信データのストリームからコンパクトな潜在表現を学習できるため、その目的のために使用できる。
この研究は、自動エンコーダとリカレントニューラルネットワークを組み合わせて現在の潜伏表現を学習する、複合dynAmicautoencodeRネットワークアーキテクチャであるCARNetを提案する。
論文 参考訳(メタデータ) (2022-05-18T04:15:42Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Self-Supervised Pillar Motion Learning for Autonomous Driving [10.921208239968827]
本研究では,点群からの自由監視信号と対カメラ画像を利用した学習フレームワークを提案する。
本モデルでは,確率的運動マスキングを付加した点雲に基づく構造整合性と,所望の自己超越を実現するためのクロスセンサ運動正規化を含む。
論文 参考訳(メタデータ) (2021-04-18T02:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。