論文の概要: Tracking Based Semi-Automatic Annotation for Scene Text Videos
- arxiv url: http://arxiv.org/abs/2103.15488v1
- Date: Mon, 29 Mar 2021 10:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:53:00.191193
- Title: Tracking Based Semi-Automatic Annotation for Scene Text Videos
- Title(参考訳): トラッキングに基づくシーンテキストビデオの半自動アノテーション
- Authors: Jiajun Zhu, Xiufeng Jiang, Zhiwei Jia, Shugong Xu, Shan Cao
- Abstract要約: 既存のシーンテキストビデオデータセットは、手動ラベリングによるコストがかかるため、大規模なものではない。
最初のフレームを手動でラベル付けし、その後のフレームを自動的に追跡することで、半自動シーンテキストアノテーションを得る。
生のビデオ,ぼやけたビデオ,低解像度のビデオからなるText-RBLという低品質のテキストビデオデータセットを提案する。
- 参考スコア(独自算出の注目度): 16.286021899032274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video scene text detection has received increasing attention due to
its comprehensive applications. However, the lack of annotated scene text video
datasets has become one of the most important problems, which hinders the
development of video scene text detection. The existing scene text video
datasets are not large-scale due to the expensive cost caused by manual
labeling. In addition, the text instances in these datasets are too clear to be
a challenge. To address the above issues, we propose a tracking based
semi-automatic labeling strategy for scene text videos in this paper. We get
semi-automatic scene text annotation by labeling manually for the first frame
and tracking automatically for the subsequent frames, which avoid the huge cost
of manual labeling. Moreover, a paired low-quality scene text video dataset
named Text-RBL is proposed, consisting of raw videos, blurry videos, and
low-resolution videos, labeled by the proposed convenient semi-automatic
labeling strategy. Through an averaging operation and bicubic down-sampling
operation over the raw videos, we can efficiently obtain blurry videos and
low-resolution videos paired with raw videos separately. To verify the
effectiveness of Text-RBL, we propose a baseline model combined with the text
detector and tracker for video scene text detection. Moreover, a failure
detection scheme is designed to alleviate the baseline model drift issue caused
by complex scenes. Extensive experiments demonstrate that Text-RBL with paired
low-quality videos labeled by the semi-automatic method can significantly
improve the performance of the text detector in low-quality scenes.
- Abstract(参考訳): 近年,その包括的応用により映像シーンのテキスト検出が注目されている。
しかし、注釈付きシーンテキストビデオデータセットが欠如していることは、ビデオシーンテキスト検出の開発を妨げる最も重要な問題の一つとなっている。
既存のシーンテキストビデオデータセットは、手動ラベリングによるコストがかかるため、大規模なものではない。
さらに、これらのデータセットのテキストインスタンスは、あまりにも明確であり、課題である。
本稿では,上記の問題に対処するために,シーンテキストビデオの追跡に基づくセミオートマチックラベリング戦略を提案する。
最初のフレームを手動でラベリングし、その後のフレームを自動的にトラッキングすることで、半自動的なシーンテキストアノテーションを取得します。
さらに,提案する半自動ラベリング戦略によってラベル付けされた生映像,ぼやけた映像,低解像度映像からなる,text-rblという2組の低品質シーンテキストビデオデータセットを提案する。
生映像に対する平均動作とbicubicダウンサンプリング操作により、生映像とペアリングしたぼやけた映像と低解像度映像を効率的に得ることができる。
Text-RBLの有効性を検証するために,ビデオシーンテキスト検出のためのテキスト検出器とトラッカーを組み合わせたベースラインモデルを提案する。
さらに,複雑なシーンによるベースラインモデルドリフト問題を軽減するために,故障検出方式が設計されている。
半自動方式でラベル付けされた低品質動画をペアにしたテキストRBLは、低品質シーンにおけるテキスト検出器の性能を著しく向上することを示した。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - FlowText: Synthesizing Realistic Scene Text Video with Optical Flow
Estimation [23.080145300304018]
本稿では,FlowTextと呼ばれる新しいビデオテキスト合成手法を提案する。
堅牢なビデオテキストスポッターを訓練するために、大量のテキストビデオデータを低コストで合成する。
論文 参考訳(メタデータ) (2023-05-05T07:15:49Z) - Video text tracking for dense and small text based on pp-yoloe-r and
sort algorithm [0.9137554315375919]
DSTextは1080 * 1920であり、ビデオフレームをいくつかの領域にスライスすると、テキストの空間的相関が破壊される。
テキスト検出には,小物体検出に有効なPP-YOLOE-Rを採用する。
テキスト検出には,高速な推論のためにソートアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-31T05:40:39Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - SPTS: Single-Point Text Spotting [128.52900104146028]
トレーニングシーンのテキストスポッティングモデルは,インスタンスごとの単一点の極めて低コストなアノテーションによって実現可能であることを示す。
本稿では,シーンテキストスポッティングをシーケンス予測タスクとするエンドツーエンドのシーンテキストスポッティング手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T06:44:21Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。