論文の概要: FlowText: Synthesizing Realistic Scene Text Video with Optical Flow
Estimation
- arxiv url: http://arxiv.org/abs/2305.03327v1
- Date: Fri, 5 May 2023 07:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:58:21.270824
- Title: FlowText: Synthesizing Realistic Scene Text Video with Optical Flow
Estimation
- Title(参考訳): flowtext: オプティカルフロー推定によるリアルなシーンテキストビデオの合成
- Authors: Yuzhong Zhao and Weijia Wu and Zhuang Li and Jiahong Li and Weiqiang
Wang
- Abstract要約: 本稿では,FlowTextと呼ばれる新しいビデオテキスト合成手法を提案する。
堅牢なビデオテキストスポッターを訓練するために、大量のテキストビデオデータを低コストで合成する。
- 参考スコア(独自算出の注目度): 23.080145300304018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video text spotting methods can achieve preferable performance,
powered with sufficient labeled training data. However, labeling data manually
is time-consuming and labor-intensive. To overcome this, using low-cost
synthetic data is a promising alternative. This paper introduces a novel video
text synthesis technique called FlowText, which utilizes optical flow
estimation to synthesize a large amount of text video data at a low cost for
training robust video text spotters. Unlike existing methods that focus on
image-level synthesis, FlowText concentrates on synthesizing temporal
information of text instances across consecutive frames using optical flow.
This temporal information is crucial for accurately tracking and spotting text
in video sequences, including text movement, distortion, appearance,
disappearance, shelter, and blur. Experiments show that combining general
detectors like TransDETR with the proposed FlowText produces remarkable results
on various datasets, such as ICDAR2015video and ICDAR2013video. Code is
available at https://github.com/callsys/FlowText.
- Abstract(参考訳): 現在のビデオテキストスポッティング法は、十分なラベル付きトレーニングデータを用いて、好ましいパフォーマンスを達成することができる。
しかし、データを手動でラベル付けするのは時間と労力を要する。
これを克服するために、低コストな合成データを使うことは有望な選択肢である。
本稿では,光学的フロー推定を利用して,ロバストなビデオテキストスポッターを訓練するために,大量のテキストデータを低コストで合成するFlowTextという新しいビデオテキスト合成手法を提案する。
画像レベルの合成に焦点を当てた既存の手法とは異なり、flowtextは光学フローを用いてテキストインスタンスの時間情報を連続フレームで合成することに集中している。
この時間情報は、テキストの動き、歪み、外観、消失、避難所、ぼやけなど、ビデオシーケンス中のテキストを正確に追跡し、特定するために重要である。
実験により、TransDETRのような一般的な検出器と提案されたFlowTextを組み合わせることで、ICDAR2015videoやICDAR2013videoのような様々なデータセットで顕著な結果が得られることが示された。
コードはhttps://github.com/callsys/FlowTextで入手できる。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Video text tracking for dense and small text based on pp-yoloe-r and
sort algorithm [0.9137554315375919]
DSTextは1080 * 1920であり、ビデオフレームをいくつかの領域にスライスすると、テキストの空間的相関が破壊される。
テキスト検出には,小物体検出に有効なPP-YOLOE-Rを採用する。
テキスト検出には,高速な推論のためにソートアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-31T05:40:39Z) - RealFlow: EM-based Realistic Optical Flow Dataset Generation from Videos [28.995525297929348]
RealFlowは、ラベルのないリアルなビデオから直接、大規模な光フローデータセットを作成することができるフレームワークである。
まず,一対のビデオフレーム間の光フローを推定し,予測されたフローに基づいて,このペアから新たな画像を生成する。
本手法は,教師付きおよび教師なしの光流法と比較して,2つの標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-22T13:33:03Z) - Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning [91.15406440999939]
Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
論文 参考訳(メタデータ) (2022-07-18T07:54:17Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Learning optical flow from still images [53.295332513139925]
我々は,容易に利用可能な単一の実画像から,高精度な光学的フローアノテーションを迅速かつ多量に生成するフレームワークを提案する。
既知の動きベクトルと回転角を持つ再構成された環境でカメラを仮想的に移動させる。
我々のデータでトレーニングすると、最先端の光フローネットワークは、実データを見るのに優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:58Z) - Tracking Based Semi-Automatic Annotation for Scene Text Videos [16.286021899032274]
既存のシーンテキストビデオデータセットは、手動ラベリングによるコストがかかるため、大規模なものではない。
最初のフレームを手動でラベル付けし、その後のフレームを自動的に追跡することで、半自動シーンテキストアノテーションを得る。
生のビデオ,ぼやけたビデオ,低解像度のビデオからなるText-RBLという低品質のテキストビデオデータセットを提案する。
論文 参考訳(メタデータ) (2021-03-29T10:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。