論文の概要: Contrastive Learning of Semantic and Visual Representations for Text
Tracking
- arxiv url: http://arxiv.org/abs/2112.14976v1
- Date: Thu, 30 Dec 2021 09:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 04:03:17.744884
- Title: Contrastive Learning of Semantic and Visual Representations for Text
Tracking
- Title(参考訳): テキスト追跡のための意味表現と視覚表現の対比学習
- Authors: Zhuang Li, Weijia Wu, Mike Zheng Shou, Jiahong Li, Size Li, Zhongyuan
Wang, Hong Zhou
- Abstract要約: 本稿では,意味的および視覚的表現のコントラスト学習による映像テキストの追跡について検討する。
本稿では,Semantic and Visual Representations (SVRep) を用いたエンドツーエンドのビデオテキストトラッカーを提案する。
SVRepはResNet-18のバックボーンで$rm ID_F1$ of $textbf65.9%$を達成している。
- 参考スコア(独自算出の注目度): 22.817884815010856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic representation is of great benefit to the video text tracking(VTT)
task that requires simultaneously classifying, detecting, and tracking texts in
the video. Most existing approaches tackle this task by appearance similarity
in continuous frames, while ignoring the abundant semantic features. In this
paper, we explore to robustly track video text with contrastive learning of
semantic and visual representations. Correspondingly, we present an end-to-end
video text tracker with Semantic and Visual Representations(SVRep), which
detects and tracks texts by exploiting the visual and semantic relationships
between different texts in a video sequence. Besides, with a light-weight
architecture, SVRep achieves state-of-the-art performance while maintaining
competitive inference speed. Specifically, with a backbone of ResNet-18, SVRep
achieves an ${\rm ID_{F1}}$ of $\textbf{65.9\%}$, running at $\textbf{16.7}$
FPS, on the ICDAR2015(video) dataset with $\textbf{8.6\%}$ improvement than the
previous state-of-the-art methods.
- Abstract(参考訳): セマンティック表現はビデオ中のテキストを同時に分類、検出、追跡する必要があるビデオテキスト追跡(VTT)タスクにとって大きな利点である。
既存のアプローチのほとんどは、豊富な意味的特徴を無視しながら、連続したフレームの外観的類似性によってこのタスクに取り組む。
本稿では,セマンティック表現とビジュアル表現の対比学習を用いて,ビデオテキストをロバストに追跡する。
ビデオシーケンス内の異なるテキスト間の視覚的および意味的関係を利用してテキストを検出し,追跡するセマンティックおよびビジュアル表現(SVRep)を備えたエンドツーエンドのビデオテキストトラッカーを提案する。
さらに、軽量アーキテクチャにより、SVRepは競合推論速度を維持しながら最先端のパフォーマンスを達成する。
具体的には、resnet-18のバックボーンで${\rm id_{f1}}$を$\textbf{65.9\%}$で達成し、$\textbf{16.7}$ fpsでicdar2015(ビデオ)データセット上で動作し、$\textbf{8.6\%}$が従来の最先端メソッドよりも改善される。
関連論文リスト
- SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning [91.15406440999939]
Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
論文 参考訳(メタデータ) (2022-07-18T07:54:17Z) - End-to-End Video Text Spotting with Transformer [86.46724646835627]
我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
論文 参考訳(メタデータ) (2022-03-20T12:14:58Z) - Video Text Tracking With a Spatio-Temporal Complementary Model [46.99051486905713]
テキストトラッキングは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存の手法は、トラッキング・バイ・ディテククション・フレームワークを利用する。
我々は、このパラダイムの追跡精度がより複雑なシナリオで著しく制限されていると論じる。
論文 参考訳(メタデータ) (2021-11-09T08:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。