論文の概要: GoMatching: A Simple Baseline for Video Text Spotting via Long and Short
Term Matching
- arxiv url: http://arxiv.org/abs/2401.07080v1
- Date: Sat, 13 Jan 2024 13:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:57:38.887188
- Title: GoMatching: A Simple Baseline for Video Text Spotting via Long and Short
Term Matching
- Title(参考訳): GoMatching: 長期および短期マッチングによるビデオテキストスポッティングのためのシンプルなベースライン
- Authors: Haibin He, Maoyuan Ye, Jing Zhang, Juhua Liu, Dacheng Tao
- Abstract要約: ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
ICDAR15ビデオデータセットに新しい記録を設定し、任意の形のテキストで新しいテストセットをセットした。
- 参考スコア(独自算出の注目度): 63.92600699525989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Beyond the text detection and recognition tasks in image text spotting, video
text spotting presents an augmented challenge with the inclusion of tracking.
While advanced end-to-end trainable methods have shown commendable performance,
the pursuit of multi-task optimization may pose the risk of producing
sub-optimal outcomes for individual tasks. In this paper, we highlight a main
bottleneck in the state-of-the-art video text spotter: the limited recognition
capability. In response to this issue, we propose to efficiently turn an
off-the-shelf query-based image text spotter into a specialist on video and
present a simple baseline termed GoMatching, which focuses the training efforts
on tracking while maintaining strong recognition performance. To adapt the
image text spotter to video datasets, we add a rescoring head to rescore each
detected instance's confidence via efficient tuning, leading to a better
tracking candidate pool. Additionally, we design a long-short term matching
module, termed LST-Matcher, to enhance the spotter's tracking capability by
integrating both long- and short-term matching results via Transformer. Based
on the above simple designs, GoMatching achieves impressive performance on two
public benchmarks, e.g., setting a new record on the ICDAR15-video dataset, and
one novel test set with arbitrary-shaped text, while saving considerable
training budgets. The code will be released at
https://github.com/Hxyz-123/GoMatching.
- Abstract(参考訳): 画像テキストスポッティングにおけるテキスト検出および認識タスク以外にも、ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を呈している。
高度なエンド・ツー・エンドのトレーニング可能な手法は高い性能を示してきたが、マルチタスク最適化の追求は、個々のタスクに最適な結果をもたらすリスクをもたらす可能性がある。
本稿では,最先端のビデオテキストスポッターの主なボトルネックとして,認識能力の制限について述べる。
この問題に対処するため,市販の問合せベースの画像テキストスポッターをビデオのスペシャリストに効率よく変換し,強力な認識性能を維持しつつ,トラッキングに重点を置いたGoMatchingというシンプルなベースラインを提案する。
画像テキストスポッターをビデオデータセットに適応させるために、検出された各インスタンスの信頼度を効率的なチューニングによって再スコアするリスコリングヘッドを追加し、よりよいトラッキング候補プールを実現する。
さらに,LST-Matcherと呼ばれる長短のマッチングモジュールを設計し,Transformerを介して長短のマッチング結果を統合することにより,スポッターのトラッキング能力を向上させる。
上記の単純な設計に基づいて、GoMatchingは2つの公開ベンチマークで印象的なパフォーマンスを実現している。例えば、ICDAR15ビデオデータセットに新しい記録を樹立し、任意の形のテキストで新しいテストセットをセットし、かなりのトレーニング予算を節約している。
コードはhttps://github.com/hxyz-123/gomatchingでリリースされる。
関連論文リスト
- Autogenic Language Embedding for Coherent Point Tracking [19.127052469203612]
我々は,言語埋め込みを利用した新しいアプローチを導入し,同一オブジェクトに関連するフレーム単位の視覚的特徴のコヒーレンスを高める。
既存の視覚言語スキームとは異なり、本手法は専用のマッピングネットワークを通じて視覚的特徴からテキスト埋め込みを学習する。
提案手法は,映像中の軌跡の追跡精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-07-30T11:02:45Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。