論文の概要: OMG: Observe Multiple Granularities for Natural Language-Based Vehicle
Retrieval
- arxiv url: http://arxiv.org/abs/2204.08209v1
- Date: Mon, 18 Apr 2022 08:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 20:55:45.083645
- Title: OMG: Observe Multiple Granularities for Natural Language-Based Vehicle
Retrieval
- Title(参考訳): OMG: 自然言語による車両検索のための複数粒度観測
- Authors: Yunhao Du, Binyu Zhang, Xiangning Ruan, Fei Su, Zhicheng Zhao and Hong
Chen
- Abstract要約: 本稿では,複数の粒度を観測する自然言語に基づく車両検索タスクのための新しいフレームワークを提案する。
われわれのOMGはこれまでの手法をはるかに上回り、第6回AIシティチャレンジトラック2で9位にランクインした。
- 参考スコア(独自算出の注目度): 33.15778584483565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving tracked-vehicles by natural language descriptions plays a critical
role in smart city construction. It aims to find the best match for the given
texts from a set of tracked vehicles in surveillance videos. Existing works
generally solve it by a dual-stream framework, which consists of a text
encoder, a visual encoder and a cross-modal loss function. Although some
progress has been made, they failed to fully exploit the information at various
levels of granularity. To tackle this issue, we propose a novel framework for
the natural language-based vehicle retrieval task, OMG, which Observes Multiple
Granularities with respect to visual representation, textual representation and
objective functions. For the visual representation, target features, context
features and motion features are encoded separately. For the textual
representation, one global embedding, three local embeddings and a color-type
prompt embedding are extracted to represent various granularities of semantic
features. Finally, the overall framework is optimized by a cross-modal
multi-granularity contrastive loss function. Experiments demonstrate the
effectiveness of our method. Our OMG significantly outperforms all previous
methods and ranks the 9th on the 6th AI City Challenge Track2. The codes are
available at https://github.com/dyhBUPT/OMG.
- Abstract(参考訳): 自然言語記述による追跡車両の検索は、スマートシティ構築において重要な役割を果たす。
監視ビデオの中で、追跡された車両のセットから与えられたテキストのベストマッチを見つけることを目的としている。
既存の作品は、テキストエンコーダ、ビジュアルエンコーダ、クロスモーダル損失関数からなるデュアルストリームフレームワークによって解決されている。
いくつかの進展はあったが、様々なレベルの粒度の情報を十分に活用できなかった。
そこで本稿では, 視覚表現, テキスト表現, 客観的関数に関して, 複数の粒度を観測する自然言語に基づく車両検索タスクOMGを提案する。
視覚表現には、ターゲット特徴、コンテキスト特徴、動き特徴が別々に符号化される。
テキスト表現には,1つのグローバル埋め込み,3つの局所埋め込み,1つのカラータイプのプロンプト埋め込みが抽出され,意味的特徴の様々な粒度を表す。
最後に、フレームワーク全体の最適化は、クロスモーダル多粒度コントラスト損失関数によって行われる。
実験により本手法の有効性が示された。
われわれのOMGはこれまでの手法をはるかに上回り、6th AI City Challenge Track2で9位にランクインした。
コードはhttps://github.com/dyhbupt/omgで入手できる。
関連論文リスト
- Visual Grounding with Multi-modal Conditional Adaptation [14.177510695317098]
ビジュアルグラウンド(Visual Grounding)は、自然言語で指定されたオブジェクトを特定するタスクである。
重みを適応的に更新できるマルチモーダル条件適応(MMCA)を導入する。
MMCAは、大幅な改善と最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-09-08T07:08:58Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Learning Granularity-Unified Representations for Text-to-Image Person
Re-identification [29.04254233799353]
ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。
現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。
本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-16T01:26:10Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - All You Can Embed: Natural Language based Vehicle Retrieval with
Spatio-Temporal Transformers [0.981213663876059]
AYCE(All You Can Embed)は,単一車両追跡シーケンスを自然言語に関連付けるモジュール型ソリューションである。
提案したアーキテクチャの主要なビルディングブロックは (i) BERT でテキスト記述の埋め込みを提供し、 (ii) コンボリューションバックボーンと Transformer モデルで視覚情報を埋め込む。
検索モデルのトレーニングのために,視覚と言語との埋め込み距離を学習するために,トリプルト・マージン・ロスのバリエーションを提案する。
論文 参考訳(メタデータ) (2021-06-18T14:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。