論文の概要: Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2310.02251v2
- Date: Tue, 14 Nov 2023 14:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 18:14:03.109997
- Title: Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving
- Title(参考訳): talk2bev: 自律運転のための言語強調鳥眼図
- Authors: Tushar Choudhary, Vikrant Dewangan, Shivam Chandhok, Shubham
Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna
Murthy Jatavallabhula, K. Madhava Krishna
- Abstract要約: Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための視覚言語モデルインターフェースである。
汎用言語とビジョンモデルにおける最近の進歩と、BEV構造化マップ表現を融合させる。
本研究では,多数のシーン理解タスクにおいて,Talk2BEVを広範囲に評価する。
- 参考スコア(独自算出の注目度): 23.957306230979746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talk2BEV is a large vision-language model (LVLM) interface for bird's-eye
view (BEV) maps in autonomous driving contexts. While existing perception
systems for autonomous driving scenarios have largely focused on a pre-defined
(closed) set of object categories and driving scenarios, Talk2BEV blends recent
advances in general-purpose language and vision models with BEV-structured map
representations, eliminating the need for task-specific models. This enables a
single system to cater to a variety of autonomous driving tasks encompassing
visual and spatial reasoning, predicting the intents of traffic actors, and
decision-making based on visual cues. We extensively evaluate Talk2BEV on a
large number of scene understanding tasks that rely on both the ability to
interpret free-form natural language queries, and in grounding these queries to
the visual context embedded into the language-enhanced BEV map. To enable
further research in LVLMs for autonomous driving scenarios, we develop and
release Talk2BEV-Bench, a benchmark encompassing 1000 human-annotated BEV
scenarios, with more than 20,000 questions and ground-truth responses from the
NuScenes dataset.
- Abstract(参考訳): Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための大型視覚言語モデル(LVLM)インターフェースである。
既存の自動運転シナリオの認識システムは、オブジェクトカテゴリと駆動シナリオの事前定義された(閉じた)セットに重点を置いているが、talk2bevは、汎用言語とビジョンモデルの最近の進歩とbev構造化マップ表現を融合させ、タスク固有のモデルの必要性をなくしている。
これにより、単一のシステムは、視覚的および空間的推論、トラフィックアクターの意図の予測、視覚的手がかりに基づく意思決定を含む様々な自律運転タスクに対応できる。
我々は、自由形式の自然言語クエリを解釈する能力と、これらのクエリを言語拡張型BEVマップに埋め込まれた視覚的コンテキストに基盤付けることの両方に依存する、多数のシーン理解タスクに基づいて、Talk2BEVを広範囲に評価する。
自動運転シナリオのためのLVLMのさらなる研究を可能にするために、1,000人の人間によるBEVシナリオを含むベンチマークであるTalk2BEV-Benchを開発しリリースする。
関連論文リスト
- RoadBEV: Road Surface Reconstruction in Bird's Eye View [55.0558717607946]
視覚に基づくオンライン道路再建は,道路情報を事前に収集する。
近年のBird's-Eye-View (BEV) の認識技術は、より信頼性と正確な再構築の可能性を秘めている。
本稿では,BEVにおける道路高架化モデルとして,RoadBEV-monoとRoadBEV-stereoの2つのモデルを提案する。
論文 参考訳(メタデータ) (2024-04-09T20:24:29Z) - BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in
Autonomous Driving [16.500619629772945]
textBEV-CLIPは、テキストを入力として利用して対応するシーンを検索する、最初のマルチモーダルバード・アイビュー(BEV)検索手法である。
実験の結果,テキスト・ツー・BEV機能検索におけるNuScenesデータセットの精度は87.66%となった。
論文 参考訳(メタデータ) (2024-01-02T06:56:23Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Bird's-Eye-View Scene Graph for Vision-Language Navigation [85.72725920024578]
視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
論文 参考訳(メタデータ) (2023-08-09T07:48:20Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。