論文の概要: Symmetric Network with Spatial Relationship Modeling for Natural
Language-based Vehicle Retrieval
- arxiv url: http://arxiv.org/abs/2206.10879v1
- Date: Wed, 22 Jun 2022 07:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 15:37:43.003468
- Title: Symmetric Network with Spatial Relationship Modeling for Natural
Language-based Vehicle Retrieval
- Title(参考訳): 自然言語に基づく車両検索のための空間関係モデル付き対称性ネットワーク
- Authors: Chuyang Zhao and Haobo Chen and Wenyuan Zhang and Junru Chen and
Sipeng Zhang and Yadong Li and Boxun Li
- Abstract要約: 自然言語(NL)に基づく車両検索は,特定の車両のテキスト記述を検索することを目的としている。
NLに基づく車両検索のための空間関係モデリング(SSM)手法を提案する。
第6回AIシティチャレンジでは43.92%のMRR精度を達成した。
- 参考スコア(独自算出の注目度): 3.610372087454382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language (NL) based vehicle retrieval aims to search specific vehicle
given text description. Different from the image-based vehicle retrieval,
NL-based vehicle retrieval requires considering not only vehicle appearance,
but also surrounding environment and temporal relations. In this paper, we
propose a Symmetric Network with Spatial Relationship Modeling (SSM) method for
NL-based vehicle retrieval. Specifically, we design a symmetric network to
learn the unified cross-modal representations between text descriptions and
vehicle images, where vehicle appearance details and vehicle trajectory global
information are preserved. Besides, to make better use of location information,
we propose a spatial relationship modeling methods to take surrounding
environment and mutual relationship between vehicles into consideration. The
qualitative and quantitative experiments verify the effectiveness of the
proposed method. We achieve 43.92% MRR accuracy on the test set of the 6th AI
City Challenge on natural language-based vehicle retrieval track, yielding the
1st place among all valid submissions on the public leaderboard. The code is
available at https://github.com/hbchen121/AICITY2022_Track2_SSM.
- Abstract(参考訳): 自然言語(NL)に基づく車両検索は,特定の車両のテキスト記述を検索することを目的としている。
画像に基づく車両検索とは異なり、NLに基づく車両検索は車両の外観だけでなく、周囲環境や時間的関係も考慮する必要がある。
本稿では,空間関係モデリング(ssm)手法を用いたnlに基づく車両検索のための対称ネットワークを提案する。
具体的には,車両の外観詳細と車両軌跡のグローバル情報を保存するために,テキスト記述と車両画像の統一的なクロスモーダル表現を学ぶための対称ネットワークを設計する。
また,位置情報をより活用するために,周辺環境と車両間の相互関係を考慮した空間関係モデリング手法を提案する。
定性的かつ定量的な実験により,提案手法の有効性が検証された。
第6回ai city challenge(ai city challenge on natural language-based vehicle retrieval track)の試験セットにおいて,43.92%のmrr精度を達成した。
コードはhttps://github.com/hbchen121/aicity2022_track2_ssmで入手できる。
関連論文リスト
- Structural Information Guided Multimodal Pre-training for
Vehicle-centric Perception [36.92036421490819]
そこで我々は,VagerMAEと呼ばれる新しい車両中心の事前学習フレームワークを提案する。
車両のスケッチラインを空間構造の形式として明示的に抽出し,車両の再建を誘導する。
大規模なデータセットは、約100万の車両画像と12693のテキスト情報を含むAutobot1Mと呼ばれるモデルを事前訓練するために構築されている。
論文 参考訳(メタデータ) (2023-12-15T14:10:21Z) - FindVehicle and VehicleFinder: A NER dataset for natural language-based
vehicle retrieval and a keyword-based cross-modal vehicle retrieval system [7.078561467480664]
自然言語(NL)に基づく車両検索は,すべての候補車から与えられたNLクエリに最も整合した車両の検索を目的としたタスクである。
これらの問題に対処し、単純化するために、名前付きエンティティ認識(NER)からアイデアを借り、トラフィック領域におけるNERデータセットであるFindVehicleを構築します。
VehicleFinderは87.7%の精度と89.4%のリコールを達成した。
論文 参考訳(メタデータ) (2023-04-21T11:20:23Z) - RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent
Vehicle in Complex Environments [72.04891523115535]
本稿では,オブジェクトの提案から潜在的意味関係を予測するグラフ畳み込みネットワークRSG-Netを提案する。
実験の結果、このネットワークはロードシーングラフデータセットに基づいてトレーニングされており、エゴ車両周辺のオブジェクト間の潜在的な意味関係を効率的に予測できることがわかった。
論文 参考訳(メタデータ) (2022-07-16T12:40:17Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Commands 4 Autonomous Vehicles (C4AV) Workshop Summary [91.92872482200018]
本稿では,最近のEmphTalk2Carデータセットに基づいて,EmphCommands for autonomous Vehicles (C4AV)チャレンジの結果について述べる。
我々は、トップパフォーマンスモデルを成功させる側面を特定し、それらを視覚的なグラウンド化のために既存の最先端モデルと関連付ける。
論文 参考訳(メタデータ) (2020-09-18T12:33:21Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z) - A Multi-Modal States based Vehicle Descriptor and Dilated Convolutional
Social Pooling for Vehicle Trajectory Prediction [3.131740922192114]
本稿では,この問題を解決するために,拡張畳み込み社会プーリング(VD+DCS-LSTM)を用いた車両記述子に基づくLSTMモデルを提案する。
各車両のマルチモーダル状態情報がモデル入力として使用される。
モデル全体の妥当性はNGSIM US-101とI-80データセットで検証された。
論文 参考訳(メタデータ) (2020-03-07T01:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。