論文の概要: GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching
- arxiv url: http://arxiv.org/abs/2401.07080v2
- Date: Tue, 08 Oct 2024 03:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:52.304068
- Title: GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching
- Title(参考訳): GoMatching: 長期的および短期的マッチングによるビデオテキストスポッティングのためのシンプルなベースライン
- Authors: Haibin He, Maoyuan Ye, Jing Zhang, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
GoMatchingは、ICDAR15ビデオ、DSText、BOVTextに新しいレコードを提供し、ArTVideoと呼ばれる任意の形のテキストを用いた新しいテストを提案しました。
- 参考スコア(独自算出の注目度): 77.0306273129475
- License:
- Abstract: Beyond the text detection and recognition tasks in image text spotting, video text spotting presents an augmented challenge with the inclusion of tracking. While advanced end-to-end trainable methods have shown commendable performance, the pursuit of multi-task optimization may pose the risk of producing sub-optimal outcomes for individual tasks. In this paper, we identify a main bottleneck in the state-of-the-art video text spotter: the limited recognition capability. In response to this issue, we propose to efficiently turn an off-the-shelf query-based image text spotter into a specialist on video and present a simple baseline termed GoMatching, which focuses the training efforts on tracking while maintaining strong recognition performance. To adapt the image text spotter to video datasets, we add a rescoring head to rescore each detected instance's confidence via efficient tuning, leading to a better tracking candidate pool. Additionally, we design a long-short term matching module, termed LST-Matcher, to enhance the spotter's tracking capability by integrating both long- and short-term matching results via Transformer. Based on the above simple designs, GoMatching delivers new records on ICDAR15-video, DSText, BOVText, and our proposed novel test with arbitrary-shaped text termed ArTVideo, which demonstrates GoMatching's capability to accommodate general, dense, small, arbitrary-shaped, Chinese and English text scenarios while saving considerable training budgets.
- Abstract(参考訳): 画像テキストスポッティングにおけるテキスト検出および認識タスク以外にも、ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を呈している。
高度なエンド・ツー・エンドのトレーニング可能な手法は高い性能を示してきたが、マルチタスク最適化の追求は、個々のタスクに最適な結果をもたらすリスクを生じさせる可能性がある。
本稿では,現在最先端のビデオテキストスポッターの主なボトルネックである認識能力の制限について述べる。
この問題に対処するため,市販の問合せベースの画像テキストスポッターをビデオのスペシャリストに効率よく変換し,強力な認識性能を維持しつつ,トラッキングに重点を置いたGoMatchingというシンプルなベースラインを提示することを提案する。
画像テキストスポッターをビデオデータセットに適応させるために、検出された各インスタンスの信頼度を効率的なチューニングによって再スコアするリスコリングヘッドを追加し、よりよいトラッキング候補プールを実現する。
さらに,LST-Matcherと呼ばれる長短のマッチングモジュールを設計し,Transformerを介して長短のマッチング結果を統合することにより,スポッターのトラッキング能力を向上させる。
上記の簡単な設計に基づいて、GoMatchingはICDAR15- video、DSText、BOVText、および、GoMatchingの一般的な、密集した、小さな、任意の形の、中国語と英語のテキストシナリオに対応する能力を示しながら、かなりのトレーニング予算を節約する、任意の形のArTVideoという新しいテストを行っている。
関連論文リスト
- Autogenic Language Embedding for Coherent Point Tracking [19.127052469203612]
我々は,言語埋め込みを利用した新しいアプローチを導入し,同一オブジェクトに関連するフレーム単位の視覚的特徴のコヒーレンスを高める。
既存の視覚言語スキームとは異なり、本手法は専用のマッピングネットワークを通じて視覚的特徴からテキスト埋め込みを学習する。
提案手法は,映像中の軌跡の追跡精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-07-30T11:02:45Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。