論文の概要: GoMatching++: Parameter- and Data-Efficient Arbitrary-Shaped Video Text Spotting and Benchmarking
- arxiv url: http://arxiv.org/abs/2505.22228v1
- Date: Wed, 28 May 2025 11:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.561791
- Title: GoMatching++: Parameter- and Data-Efficient Arbitrary-Shaped Video Text Spotting and Benchmarking
- Title(参考訳): GoMatching++:パラメータとデータ効率のよい任意型ビデオテキストスポッティングとベンチマーク
- Authors: Haibin He, Jing Zhang, Maoyuan Ye, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: ビデオテキストスポッティング(VTS)は、テキストトラッキングを追加することで、画像テキストスポッティング(ITS)を拡張する。
VTSの進歩にもかかわらず、既存のメソッドはまだITSで見られるパフォーマンスに劣っている。
GoMatching++は、既製の画像テキストスポッターをビデオスペシャリストに変換する。
- 参考スコア(独自算出の注目度): 77.0306273129475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video text spotting (VTS) extends image text spotting (ITS) by adding text tracking, significantly increasing task complexity. Despite progress in VTS, existing methods still fall short of the performance seen in ITS. This paper identifies a key limitation in current video text spotters: limited recognition capability, even after extensive end-to-end training. To address this, we propose GoMatching++, a parameter- and data-efficient method that transforms an off-the-shelf image text spotter into a video specialist. The core idea lies in freezing the image text spotter and introducing a lightweight, trainable tracker, which can be optimized efficiently with minimal training data. Our approach includes two key components: (1) a rescoring mechanism to bridge the domain gap between image and video data, and (2) the LST-Matcher, which enhances the frozen image text spotter's ability to handle video text. We explore various architectures for LST-Matcher to ensure efficiency in both parameters and training data. As a result, GoMatching++ sets new performance records on challenging benchmarks such as ICDAR15-video, DSText, and BOVText, while significantly reducing training costs. To address the lack of curved text datasets in VTS, we introduce ArTVideo, a new benchmark featuring over 30% curved text with detailed annotations. We also provide a comprehensive statistical analysis and experimental results for ArTVideo. We believe that GoMatching++ and the ArTVideo benchmark will drive future advancements in video text spotting. The source code, models and dataset are publicly available at https://github.com/Hxyz-123/GoMatching.
- Abstract(参考訳): ビデオテキストスポッティング(VTS)は、テキスト追跡を追加して画像テキストスポッティング(ITS)を拡張し、タスクの複雑さを大幅に増加させる。
VTSの進歩にもかかわらず、既存のメソッドはまだITSで見られるパフォーマンスに劣っている。
本稿では,従来のビデオテキストスポッターにおいて,広範囲なエンドツーエンドトレーニング後の認識能力の制限という重要な制限について述べる。
そこで本研究では,オフザシェルフ画像テキストスポッタをビデオスペシャリストに変換するパラメータとデータ効率の手法であるGoMatching++を提案する。
中心となるアイデアは、画像テキストスポッターの凍結と、最小限のトレーニングデータで効率的に最適化できる軽量でトレーニング可能なトラッカーの導入である。
本手法は,(1)画像と映像データの領域ギャップを埋めるリスコリング機構,(2)凍結画像テキストスポッターの動画テキスト処理能力を高めるLST-Matcherの2つの重要な構成要素を含む。
パラメータとトレーニングデータの効率性を確保するため,LST-Matcherのアーキテクチャについて検討する。
その結果、GoMatching++は、ICDAR15-video、DSText、BOVTextといった挑戦的なベンチマークに新たなパフォーマンスレコードを設定し、トレーニングコストを大幅に削減した。
VTSにおける曲面テキストデータセットの欠如に対処するため、詳細なアノテーションを備えた30%以上の曲面テキストを特徴とする新しいベンチマークであるArTVideoを紹介した。
また、ArTVideoの総合的な統計分析と実験結果も提供する。
GoMatching++とArTVideoベンチマークは、将来のビデオテキストスポッティングの進歩を促進するだろうと考えています。
ソースコード、モデル、データセットはhttps://github.com/Hxyz-123/GoMatching.comで公開されている。
関連論文リスト
- Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching [77.0306273129475]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
GoMatchingは、ICDAR15ビデオ、DSText、BOVTextに新しいレコードを提供し、ArTVideoと呼ばれる任意の形のテキストを用いた新しいテストを提案しました。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning [91.15406440999939]
Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
論文 参考訳(メタデータ) (2022-07-18T07:54:17Z) - Contrastive Learning of Semantic and Visual Representations for Text
Tracking [22.817884815010856]
本稿では,意味的および視覚的表現のコントラスト学習による映像テキストの追跡について検討する。
本稿では,Semantic and Visual Representations (SVRep) を用いたエンドツーエンドのビデオテキストトラッカーを提案する。
SVRepはResNet-18のバックボーンで$rm ID_F1$ of $textbf65.9%$を達成している。
論文 参考訳(メタデータ) (2021-12-30T09:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。