論文の概要: Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval
- arxiv url: http://arxiv.org/abs/2105.14897v1
- Date: Mon, 31 May 2021 11:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:08:43.101758
- Title: Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval
- Title(参考訳): 自然言語に基づく車両検索のための言語接続とビジョン
- Authors: Shuai Bai, Zhedong Zheng, Xiaohan Wang, Junyang Lin, Zhu Zhang, Chang
Zhou, Yi Yang, Hongxia Yang
- Abstract要約: 本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
- 参考スコア(独自算出の注目度): 77.88818029640977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vehicle search is one basic task for the efficient traffic management in
terms of the AI City. Most existing practices focus on the image-based vehicle
matching, including vehicle re-identification and vehicle tracking. In this
paper, we apply one new modality, i.e., the language description, to search the
vehicle of interest and explore the potential of this task in the real-world
scenario. The natural language-based vehicle search poses one new challenge of
fine-grained understanding of both vision and language modalities. To connect
language and vision, we propose to jointly train the state-of-the-art vision
models with the transformer-based language model in an end-to-end manner.
Except for the network structure design and the training strategy, several
optimization objectives are also re-visited in this work. The qualitative and
quantitative experiments verify the effectiveness of the proposed method. Our
proposed method has achieved the 1st place on the 5th AI City Challenge,
yielding competitive performance 18.69% MRR accuracy on the private test set.
We hope this work can pave the way for the future study on using language
description effectively and efficiently for real-world vehicle retrieval
systems. The code will be available at
https://github.com/ShuaiBai623/AIC2021-T5-CLV.
- Abstract(参考訳): 車両探索は、AIシティーにおける効率的な交通管理のための基本的なタスクである。
既存のプラクティスのほとんどは、車両の再識別や車両追跡など、画像ベースの車両マッチングに焦点を当てている。
本稿では,言語記述という新たなモダリティを,興味ある対象を探索し,現実のシナリオにおけるこの課題の可能性を探るために応用する。
自然言語に基づく車両探索は、視覚と言語モダリティの両方の詳細な理解という新たな課題を提起する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルと最先端のビジョンモデルとの協調学習を提案する。
ネットワーク構造設計とトレーニング戦略を除いて、いくつかの最適化目標も本研究で再訪されている。
定性的かつ定量的な実験により,提案手法の有効性が検証された。
提案手法は,第5回AIシティチャレンジで1位を獲得し,プライベートテストセットにおいて18.69%のMRRの精度で競合性能を得た。
本研究は,現実世界の車両検索システムにおいて,言語記述を効果的かつ効率的に活用するための今後の研究の道を開くことを願っている。
コードはhttps://github.com/ShuaiBai623/AIC2021-T5-CLVで入手できる。
関連論文リスト
- Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Symmetric Network with Spatial Relationship Modeling for Natural
Language-based Vehicle Retrieval [3.610372087454382]
自然言語(NL)に基づく車両検索は,特定の車両のテキスト記述を検索することを目的としている。
NLに基づく車両検索のための空間関係モデリング(SSM)手法を提案する。
第6回AIシティチャレンジでは43.92%のMRR精度を達成した。
論文 参考訳(メタデータ) (2022-06-22T07:02:04Z) - SBNet: Segmentation-based Network for Natural Language-based Vehicle
Search [8.286899656309476]
自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。
この技術は、容疑者の車両を捜索する警察を含む様々な分野に適用することができる。
車両検索のための自然言語に基づくセグメンテーションを行うディープニューラルネットワークSBNetを提案する。
論文 参考訳(メタデータ) (2021-04-22T08:06:17Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Commands 4 Autonomous Vehicles (C4AV) Workshop Summary [91.92872482200018]
本稿では,最近のEmphTalk2Carデータセットに基づいて,EmphCommands for autonomous Vehicles (C4AV)チャレンジの結果について述べる。
我々は、トップパフォーマンスモデルを成功させる側面を特定し、それらを視覚的なグラウンド化のために既存の最先端モデルと関連付ける。
論文 参考訳(メタデータ) (2020-09-18T12:33:21Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。