論文の概要: All You Can Embed: Natural Language based Vehicle Retrieval with
Spatio-Temporal Transformers
- arxiv url: http://arxiv.org/abs/2106.10153v1
- Date: Fri, 18 Jun 2021 14:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:04:09.106657
- Title: All You Can Embed: Natural Language based Vehicle Retrieval with
Spatio-Temporal Transformers
- Title(参考訳): エンベッドできるのは、時空間トランスフォーマーによる自然言語による車両検索
- Authors: Carmelo Scribano, Davide Sapienza, Giorgia Franchini, Micaela Verucchi
and Marko Bertogna
- Abstract要約: AYCE(All You Can Embed)は,単一車両追跡シーケンスを自然言語に関連付けるモジュール型ソリューションである。
提案したアーキテクチャの主要なビルディングブロックは (i) BERT でテキスト記述の埋め込みを提供し、 (ii) コンボリューションバックボーンと Transformer モデルで視覚情報を埋め込む。
検索モデルのトレーニングのために,視覚と言語との埋め込み距離を学習するために,トリプルト・マージン・ロスのバリエーションを提案する。
- 参考スコア(独自算出の注目度): 0.981213663876059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining Natural Language with Vision represents a unique and interesting
challenge in the domain of Artificial Intelligence. The AI City Challenge Track
5 for Natural Language-Based Vehicle Retrieval focuses on the problem of
combining visual and textual information, applied to a smart-city use case. In
this paper, we present All You Can Embed (AYCE), a modular solution to
correlate single-vehicle tracking sequences with natural language. The main
building blocks of the proposed architecture are (i) BERT to provide an
embedding of the textual descriptions, (ii) a convolutional backbone along with
a Transformer model to embed the visual information. For the training of the
retrieval model, a variation of the Triplet Margin Loss is proposed to learn a
distance measure between the visual and language embeddings. The code is
publicly available at https://github.com/cscribano/AYCE_2021.
- Abstract(参考訳): 自然言語とビジョンを組み合わせることは、人工知能の領域においてユニークで興味深い課題である。
AI City Challenge Track 5 for Natural Language-Based Vehicle Retrievalは、スマートシティのユースケースに適用された視覚情報とテキスト情報を組み合わせた問題に焦点を当てている。
本稿では,AYCE(All You Can Embed)という,単一車両追跡シーケンスを自然言語に関連付けるモジュール型ソリューションを提案する。
提案したアーキテクチャの主要なビルディングブロックは (i) BERT でテキスト記述の埋め込みを提供し、 (ii) コンボリューションバックボーンと Transformer モデルで視覚情報を埋め込む。
検索モデルの学習のために,視覚と言語間の距離尺度を学習するために,三重項マージン損失の変動が提案されている。
コードはhttps://github.com/cscribano/AYCE_2021で公開されている。
関連論文リスト
- Language Prompt for Autonomous Driving [58.45334918772529]
我々は,3D,マルチビュー,マルチフレーム空間内のシーンを駆動するための最初のオブジェクト指向言語プロンプトセットであるNuPromptを提案する。
合計35,367の言語記述を構築することで、Nuscenesデータセットを拡張し、それぞれが平均5.3のオブジェクトトラックを参照している。
新しいベンチマークから得られたオブジェクトとテキストのペアに基づいて、新しいプロンプトベースの駆動タスク、すなわち、言語プロンプトを用いて、ビューやフレーム間で記述されたオブジェクトの軌跡を予測する。
論文 参考訳(メタデータ) (2023-09-08T15:21:07Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - OMG: Observe Multiple Granularities for Natural Language-Based Vehicle
Retrieval [33.15778584483565]
本稿では,複数の粒度を観測する自然言語に基づく車両検索タスクのための新しいフレームワークを提案する。
われわれのOMGはこれまでの手法をはるかに上回り、第6回AIシティチャレンジトラック2で9位にランクインした。
論文 参考訳(メタデータ) (2022-04-18T08:15:38Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - SBNet: Segmentation-based Network for Natural Language-based Vehicle
Search [8.286899656309476]
自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。
この技術は、容疑者の車両を捜索する警察を含む様々な分野に適用することができる。
車両検索のための自然言語に基づくセグメンテーションを行うディープニューラルネットワークSBNetを提案する。
論文 参考訳(メタデータ) (2021-04-22T08:06:17Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Going Full-TILT Boogie on Document Understanding with Text-Image-Layout
Transformer [0.6702423358056857]
本稿では,レイアウト情報,視覚特徴,テキスト意味論を同時に学習するtiltニューラルネットワークアーキテクチャを紹介する。
私たちは、テーブル、数字、フォームなど、さまざまなレイアウトの実際の文書のネットワークを訓練しました。
論文 参考訳(メタデータ) (2021-02-18T18:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。