論文の概要: GoMatching: A Simple Baseline for Video Text Spotting via Long and Short
Term Matching
- arxiv url: http://arxiv.org/abs/2401.07080v1
- Date: Sat, 13 Jan 2024 13:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:57:38.887188
- Title: GoMatching: A Simple Baseline for Video Text Spotting via Long and Short
Term Matching
- Title(参考訳): GoMatching: 長期および短期マッチングによるビデオテキストスポッティングのためのシンプルなベースライン
- Authors: Haibin He, Maoyuan Ye, Jing Zhang, Juhua Liu, Dacheng Tao
- Abstract要約: ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
ICDAR15ビデオデータセットに新しい記録を設定し、任意の形のテキストで新しいテストセットをセットした。
- 参考スコア(独自算出の注目度): 63.92600699525989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Beyond the text detection and recognition tasks in image text spotting, video
text spotting presents an augmented challenge with the inclusion of tracking.
While advanced end-to-end trainable methods have shown commendable performance,
the pursuit of multi-task optimization may pose the risk of producing
sub-optimal outcomes for individual tasks. In this paper, we highlight a main
bottleneck in the state-of-the-art video text spotter: the limited recognition
capability. In response to this issue, we propose to efficiently turn an
off-the-shelf query-based image text spotter into a specialist on video and
present a simple baseline termed GoMatching, which focuses the training efforts
on tracking while maintaining strong recognition performance. To adapt the
image text spotter to video datasets, we add a rescoring head to rescore each
detected instance's confidence via efficient tuning, leading to a better
tracking candidate pool. Additionally, we design a long-short term matching
module, termed LST-Matcher, to enhance the spotter's tracking capability by
integrating both long- and short-term matching results via Transformer. Based
on the above simple designs, GoMatching achieves impressive performance on two
public benchmarks, e.g., setting a new record on the ICDAR15-video dataset, and
one novel test set with arbitrary-shaped text, while saving considerable
training budgets. The code will be released at
https://github.com/Hxyz-123/GoMatching.
- Abstract(参考訳): 画像テキストスポッティングにおけるテキスト検出および認識タスク以外にも、ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を呈している。
高度なエンド・ツー・エンドのトレーニング可能な手法は高い性能を示してきたが、マルチタスク最適化の追求は、個々のタスクに最適な結果をもたらすリスクをもたらす可能性がある。
本稿では,最先端のビデオテキストスポッターの主なボトルネックとして,認識能力の制限について述べる。
この問題に対処するため,市販の問合せベースの画像テキストスポッターをビデオのスペシャリストに効率よく変換し,強力な認識性能を維持しつつ,トラッキングに重点を置いたGoMatchingというシンプルなベースラインを提案する。
画像テキストスポッターをビデオデータセットに適応させるために、検出された各インスタンスの信頼度を効率的なチューニングによって再スコアするリスコリングヘッドを追加し、よりよいトラッキング候補プールを実現する。
さらに,LST-Matcherと呼ばれる長短のマッチングモジュールを設計し,Transformerを介して長短のマッチング結果を統合することにより,スポッターのトラッキング能力を向上させる。
上記の単純な設計に基づいて、GoMatchingは2つの公開ベンチマークで印象的なパフォーマンスを実現している。例えば、ICDAR15ビデオデータセットに新しい記録を樹立し、任意の形のテキストで新しいテストセットをセットし、かなりのトレーニング予算を節約している。
コードはhttps://github.com/hxyz-123/gomatchingでリリースされる。
関連論文リスト
- Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文 参考訳(メタデータ) (2023-07-17T14:08:17Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。