論文の概要: BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2401.01065v2
- Date: Tue, 18 Jun 2024 04:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:44:38.235947
- Title: BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving
- Title(参考訳): BEV-TSR:自動運転のためのBEV空間におけるテキストシーン検索
- Authors: Tao Tang, Dafeng Wei, Zhengyu Jia, Tian Gao, Changwei Cai, Chengkai Hou, Peng Jia, Kun Zhan, Haiyang Sun, Jingchen Fan, Yixing Zhao, Fu Liu, Xiaodan Liang, Xianpeng Lang, Yang Wang,
- Abstract要約: 本稿では,BEV-TSRフレームワークを提案する。BEV-TSRフレームワークは,バードアイビュー空間内の対応するシーンを検索するために,記述テキストを入力として利用する。
我々は,大言語モデル(LLM)を用いてテキスト入力の意味的特徴を抽出し,知識グラフの埋め込みを取り入れ,言語埋め込みの意味的豊かさを高める。
マルチレベルnuScenes-Retrievalの実験結果によると、BEV-TSRは、例えば85.78%と87.66%のトップ1の精度をシーン・トゥ・テキスト・ツー・シーンで達成している。
- 参考スコア(独自算出の注目度): 46.84729450920804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of the autonomous driving industry has led to a significant accumulation of autonomous driving data. Consequently, there comes a growing demand for retrieving data to provide specialized optimization. However, directly applying previous image retrieval methods faces several challenges, such as the lack of global feature representation and inadequate text retrieval ability for complex driving scenes. To address these issues, firstly, we propose the BEV-TSR framework which leverages descriptive text as an input to retrieve corresponding scenes in the Bird's Eye View (BEV) space. Then to facilitate complex scene retrieval with extensive text descriptions, we employ a large language model (LLM) to extract the semantic features of the text inputs and incorporate knowledge graph embeddings to enhance the semantic richness of the language embedding. To achieve feature alignment between the BEV feature and language embedding, we propose Shared Cross-modal Embedding with a set of shared learnable embeddings to bridge the gap between these two modalities, and employ a caption generation task to further enhance the alignment. Furthermore, there lack of well-formed retrieval datasets for effective evaluation. To this end, we establish a multi-level retrieval dataset, nuScenes-Retrieval, based on the widely adopted nuScenes dataset. Experimental results on the multi-level nuScenes-Retrieval show that BEV-TSR achieves state-of-the-art performance, e.g., 85.78% and 87.66% top-1 accuracy on scene-to-text and text-to-scene retrieval respectively. Codes and datasets will be available.
- Abstract(参考訳): 自動運転産業の急速な発展は、自動運転データの著しい蓄積につながった。
その結果、特別な最適化を提供するためにデータを検索する需要が高まっている。
しかし,従来の画像検索手法を直接適用することは,大域的特徴表現の欠如や複雑な運転シーンのテキスト検索能力の欠如など,いくつかの課題に直面している。
これらの問題に対処するために、まず、記述テキストを入力として活用し、バードアイビュー(BEV)空間の対応するシーンを検索するBEV-TSRフレームワークを提案する。
そこで我々は,文章入力のセマンティックな特徴を抽出するために大規模言語モデル (LLM) を用い,言語埋め込みのセマンティック・リッチネスを高めるために知識グラフの埋め込みを組み込んだ。
BEV機能と言語埋め込みの機能アライメントを実現するために,これらの2つのモダリティ間のギャップを埋めるために,共通学習可能な埋め込みを組込んだ共有クロスモーダル埋め込みを提案し,アライメントをさらに強化するためにキャプション生成タスクを採用した。
さらに, 有効評価のための検索データセットの整合性も欠如している。
そこで我々は,広く採用されているnuScenesデータセットに基づいて,マルチレベル検索データセットであるnuScenes-Retrievalを確立する。
マルチレベルnuScenes-Retrieval実験の結果、BEV-TSRは、それぞれ、シーン・トゥ・テキスト検索とテキスト・ツー・シーン検索において、85.78%、87.66%の精度で最先端のパフォーマンスを達成することが示された。
コードとデータセットが利用可能になる。
関連論文リスト
- Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。