論文の概要: LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model
- arxiv url: http://arxiv.org/abs/2405.19194v1
- Date: Wed, 29 May 2024 15:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:31:41.506414
- Title: LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model
- Title(参考訳): LOGO:言語協調とグリフ知覚モデルを用いたビデオテキストスポッティング
- Authors: Hongen Liu, Yi Liu, Di Sun, Jiahao Wang, Gang Pan,
- Abstract要約: ビデオテキストスポッティングは、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
本稿では,従来のテキストスポッターの性能を高めるために,言語協調とグリフ知覚モデル(LOGO)を提案する。
提案したLCCは,テキストライクな領域をフィルタリングしながら,低解像度テキストインスタンスの検出を容易にする。
- 参考スコア(独自算出の注目度): 20.007650672107566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video text spotting aims to simultaneously localize, recognize and track text instances in videos. To address the limited recognition capability of end-to-end methods, tracking the zero-shot results of state-of-the-art image text spotters directly can achieve impressive performance. However, owing to the domain gap between different datasets, these methods usually obtain limited tracking trajectories on extreme dataset. Fine-tuning transformer-based text spotters on specific datasets could yield performance enhancements, albeit at the expense of considerable training resources. In this paper, we propose a Language Collaboration and Glyph Perception Model, termed LOGO to enhance the performance of conventional text spotters through the integration of a synergy module. To achieve this goal, a language synergy classifier (LSC) is designed to explicitly discern text instances from background noise in the recognition stage. Specially, the language synergy classifier can output text content or background code based on the legibility of text regions, thus computing language scores. Subsequently, fusion scores are computed by taking the average of detection scores and language scores, and are utilized to re-score the detection results before tracking. By the re-scoring mechanism, the proposed LSC facilitates the detection of low-resolution text instances while filtering out text-like regions. Besides, the glyph supervision and visual position mixture module are proposed to enhance the recognition accuracy of noisy text regions, and acquire more discriminative tracking features, respectively. Extensive experiments on public benchmarks validate the effectiveness of the proposed method.
- Abstract(参考訳): ビデオテキストスポッティングは、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
エンドツーエンド手法の限られた認識能力に対処するため、最先端画像テキストスポッターのゼロショット結果を直接追跡することで、印象的な性能を実現することができる。
しかしながら、異なるデータセット間のドメインギャップのため、これらのメソッドは通常、極端なデータセット上の限られたトラッキングトラジェクトリを取得する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターは、かなりのトレーニングリソースを犠牲にして、パフォーマンスの向上をもたらす可能性がある。
本稿では,従来のテキストスポッターの性能向上を目的とした言語協調とグリフ知覚モデルを提案する。
この目的を達成するために、言語シナジー分類器(LSC)は、認識段階における背景雑音からテキストインスタンスを明示的に識別するように設計されている。
特に、言語シナジー分類器は、テキスト領域の正当性に基づいてテキストコンテンツまたはバックグラウンドコードを出力できるので、言語スコアを計算できる。
その後、検出スコアと言語スコアの平均値を取得して融合スコアを算出し、追跡前に検出結果を再スコアする。
再描画機構により,LSCはテキストライクな領域をフィルタリングしながら低解像度テキストインスタンスの検出を容易にする。
さらに,ノイズの多いテキスト領域の認識精度を高めるために,グリフと視覚位置混合モジュールを提案する。
提案手法の有効性を,公開ベンチマークで検証した。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - GoMatching: A Simple Baseline for Video Text Spotting via Long and Short
Term Matching [63.92600699525989]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
ICDAR15ビデオデータセットに新しい記録を設定し、任意の形のテキストで新しいテストセットをセットした。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Semi-Supervised Cross-Modal Salient Object Detection with U-Structure
Networks [18.12933868289846]
言語情報を視覚に基づくU-Structureネットワークに組み込むことにより,適切な物体検出作業を実現する。
本稿では,視覚的特徴と言語的特徴を組み合わせるために,効率的なクロスモーダル自己認識(eCMSA)と呼ばれる新しいモジュールを提案する。
ラベル付けの負担を軽減するため,画像キャプションモデルをトレーニングし,半教師付き学習手法を用いた。
論文 参考訳(メタデータ) (2022-08-08T18:39:37Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。