論文の概要: SBNet: Segmentation-based Network for Natural Language-based Vehicle
Search
- arxiv url: http://arxiv.org/abs/2104.11589v1
- Date: Thu, 22 Apr 2021 08:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:16:29.418324
- Title: SBNet: Segmentation-based Network for Natural Language-based Vehicle
Search
- Title(参考訳): sbnet:自然言語に基づく車両探索のためのセグメンテーションベースネットワーク
- Authors: Sangrok Lee, Taekang Woo, Sang Hun Lee
- Abstract要約: 自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。
この技術は、容疑者の車両を捜索する警察を含む様々な分野に適用することができる。
車両検索のための自然言語に基づくセグメンテーションを行うディープニューラルネットワークSBNetを提案する。
- 参考スコア(独自算出の注目度): 8.286899656309476
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural language-based vehicle retrieval is a task to find a target vehicle
within a given image based on a natural language description as a query. This
technology can be applied to various areas including police searching for a
suspect vehicle. However, it is challenging due to the ambiguity of language
descriptions and the difficulty of processing multi-modal data. To tackle this
problem, we propose a deep neural network called SBNet that performs natural
language-based segmentation for vehicle retrieval. We also propose two
task-specific modules to improve performance: a substitution module that helps
features from different domains to be embedded in the same space and a future
prediction module that learns temporal information. SBnet has been trained
using the CityFlow-NL dataset that contains 2,498 tracks of vehicles with three
unique natural language descriptions each and tested 530 unique vehicle tracks
and their corresponding query sets. SBNet achieved a significant improvement
over the baseline in the natural language-based vehicle tracking track in the
AI City Challenge 2021.
- Abstract(参考訳): 自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。
この技術は、容疑者車両を探す警察など、様々な分野に適用することができる。
しかし、言語記述の曖昧さとマルチモーダルデータの処理が困難であることから、困難である。
そこで本研究では,自然言語に基づく車両検索のセグメンテーションを行う深層ニューラルネットワークsbnetを提案する。
また,性能を向上させるためのタスク固有モジュールを2つ提案する。異なるドメインの機能を同じ空間に組み込むための置換モジュールと,時間情報を学ぶ将来の予測モジュールである。
SBnetはCityFlow-NLデータセットを使用してトレーニングされており、それぞれ3つのユニークな自然言語記述を持つ2,498のトラックと、530のユニークなトラックとその対応するクエリセットをテストしている。
sbnetは、ai city challenge 2021において、自然言語ベースの車両追跡トラックのベースラインを大きく改善した。
関連論文リスト
- MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Language Prompt for Autonomous Driving [58.45334918772529]
我々は,3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットであるNuPromptを提案する。
合計35,367の言語記述を構築することで、Nuscenesデータセットを拡張し、それぞれが平均5.3のオブジェクトトラックを参照している。
新しいベンチマークから得られたオブジェクトとテキストのペアに基づいて、新しいプロンプトベースの駆動タスク、すなわち、言語プロンプトを用いて、ビューやフレーム間で記述されたオブジェクトの軌跡を予測する。
論文 参考訳(メタデータ) (2023-09-08T15:21:07Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - FindVehicle and VehicleFinder: A NER dataset for natural language-based
vehicle retrieval and a keyword-based cross-modal vehicle retrieval system [7.078561467480664]
自然言語(NL)に基づく車両検索は,すべての候補車から与えられたNLクエリに最も整合した車両の検索を目的としたタスクである。
これらの問題に対処し、単純化するために、名前付きエンティティ認識(NER)からアイデアを借り、トラフィック領域におけるNERデータセットであるFindVehicleを構築します。
VehicleFinderは87.7%の精度と89.4%のリコールを達成した。
論文 参考訳(メタデータ) (2023-04-21T11:20:23Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Symmetric Network with Spatial Relationship Modeling for Natural
Language-based Vehicle Retrieval [3.610372087454382]
自然言語(NL)に基づく車両検索は,特定の車両のテキスト記述を検索することを目的としている。
NLに基づく車両検索のための空間関係モデリング(SSM)手法を提案する。
第6回AIシティチャレンジでは43.92%のMRR精度を達成した。
論文 参考訳(メタデータ) (2022-06-22T07:02:04Z) - All You Can Embed: Natural Language based Vehicle Retrieval with
Spatio-Temporal Transformers [0.981213663876059]
AYCE(All You Can Embed)は,単一車両追跡シーケンスを自然言語に関連付けるモジュール型ソリューションである。
提案したアーキテクチャの主要なビルディングブロックは (i) BERT でテキスト記述の埋め込みを提供し、 (ii) コンボリューションバックボーンと Transformer モデルで視覚情報を埋め込む。
検索モデルのトレーニングのために,視覚と言語との埋め込み距離を学習するために,トリプルト・マージン・ロスのバリエーションを提案する。
論文 参考訳(メタデータ) (2021-06-18T14:38:51Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。