Fugu-MT 論文翻訳(概要): Tracking Based Semi-Automatic Annotation for Scene Text Videos

論文の概要: Tracking Based Semi-Automatic Annotation for Scene Text Videos

arxiv url: http://arxiv.org/abs/2103.15488v1
Date: Mon, 29 Mar 2021 10:42:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-30 14:53:00.191193
Title: Tracking Based Semi-Automatic Annotation for Scene Text Videos
Title（参考訳）: トラッキングに基づくシーンテキストビデオの半自動アノテーション
Authors: Jiajun Zhu, Xiufeng Jiang, Zhiwei Jia, Shugong Xu, Shan Cao
Abstract要約: 既存のシーンテキストビデオデータセットは、手動ラベリングによるコストがかかるため、大規模なものではない。最初のフレームを手動でラベル付けし、その後のフレームを自動的に追跡することで、半自動シーンテキストアノテーションを得る。生のビデオ,ぼやけたビデオ,低解像度のビデオからなるText-RBLという低品質のテキストビデオデータセットを提案する。
参考スコア（独自算出の注目度）: 16.286021899032274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, video scene text detection has received increasing attention due to its comprehensive applications. However, the lack of annotated scene text video datasets has become one of the most important problems, which hinders the development of video scene text detection. The existing scene text video datasets are not large-scale due to the expensive cost caused by manual labeling. In addition, the text instances in these datasets are too clear to be a challenge. To address the above issues, we propose a tracking based semi-automatic labeling strategy for scene text videos in this paper. We get semi-automatic scene text annotation by labeling manually for the first frame and tracking automatically for the subsequent frames, which avoid the huge cost of manual labeling. Moreover, a paired low-quality scene text video dataset named Text-RBL is proposed, consisting of raw videos, blurry videos, and low-resolution videos, labeled by the proposed convenient semi-automatic labeling strategy. Through an averaging operation and bicubic down-sampling operation over the raw videos, we can efficiently obtain blurry videos and low-resolution videos paired with raw videos separately. To verify the effectiveness of Text-RBL, we propose a baseline model combined with the text detector and tracker for video scene text detection. Moreover, a failure detection scheme is designed to alleviate the baseline model drift issue caused by complex scenes. Extensive experiments demonstrate that Text-RBL with paired low-quality videos labeled by the semi-automatic method can significantly improve the performance of the text detector in low-quality scenes.
Abstract（参考訳）: 近年,その包括的応用により映像シーンのテキスト検出が注目されている。しかし、注釈付きシーンテキストビデオデータセットが欠如していることは、ビデオシーンテキスト検出の開発を妨げる最も重要な問題の一つとなっている。既存のシーンテキストビデオデータセットは、手動ラベリングによるコストがかかるため、大規模なものではない。さらに、これらのデータセットのテキストインスタンスは、あまりにも明確であり、課題である。本稿では,上記の問題に対処するために,シーンテキストビデオの追跡に基づくセミオートマチックラベリング戦略を提案する。最初のフレームを手動でラベリングし、その後のフレームを自動的にトラッキングすることで、半自動的なシーンテキストアノテーションを取得します。さらに,提案する半自動ラベリング戦略によってラベル付けされた生映像,ぼやけた映像,低解像度映像からなる,text-rblという2組の低品質シーンテキストビデオデータセットを提案する。生映像に対する平均動作とbicubicダウンサンプリング操作により、生映像とペアリングしたぼやけた映像と低解像度映像を効率的に得ることができる。 Text-RBLの有効性を検証するために,ビデオシーンテキスト検出のためのテキスト検出器とトラッカーを組み合わせたベースラインモデルを提案する。さらに,複雑なシーンによるベースラインモデルドリフト問題を軽減するために,故障検出方式が設計されている。半自動方式でラベル付けされた低品質動画をペアにしたテキストRBLは、低品質シーンにおけるテキスト検出器の性能を著しく向上することを示した。

関連論文リスト

Text-Video Multi-Grained Integration for Video Moment Montage [13.794791614348084]
ビデオモーメント・モンタージュ(VMM)と呼ばれる新しいタスクは、事前に提案されたナレーションテキストに基づいて、対応するビデオセグメントを正確に見つけることを目的としている。我々は,スクリプトからテキスト機能を効率的に融合させる新しいテキストテキスト-ビデオ多言語統合手法 (TV-MGI) を提案する。
論文参考訳（メタデータ） (2024-12-12T13:40:59Z)
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。 VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-11-22T18:31:47Z)
ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。 ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文参考訳（メタデータ） (2024-10-17T07:59:54Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
Text in the Dark: Extremely Low-Light Text Image Enhancement [20.631833980353704]
低照度テキスト画像は自然の場面で一般的であり、シーンテキストの検出と認識が困難である。強調中のシーンテキスト領域に注目するエッジ対応アテンションモジュールを備えた新しいエンコーダデコーダフレームワークを提案する。提案手法は,新しいテキスト検出とエッジ再構成の損失を利用して,低レベルなシーンテキストの特徴を強調し,テキスト抽出に成功した。
論文参考訳（メタデータ） (2024-04-22T12:39:12Z)
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文参考訳（メタデータ） (2023-09-16T08:48:21Z)
FlowText: Synthesizing Realistic Scene Text Video with Optical Flow Estimation [23.080145300304018]
本稿では,FlowTextと呼ばれる新しいビデオテキスト合成手法を提案する。堅牢なビデオテキストスポッターを訓練するために、大量のテキストビデオデータを低コストで合成する。
論文参考訳（メタデータ） (2023-05-05T07:15:49Z)
Video text tracking for dense and small text based on pp-yoloe-r and sort algorithm [0.9137554315375919]
DSTextは1080 * 1920であり、ビデオフレームをいくつかの領域にスライスすると、テキストの空間的相関が破壊される。テキスト検出には,小物体検出に有効なPP-YOLOE-Rを採用する。テキスト検出には,高速な推論のためにソートアルゴリズムを用いる。
論文参考訳（メタデータ） (2023-03-31T05:40:39Z)
Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文参考訳（メタデータ） (2023-03-22T08:13:25Z)
Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文参考訳（メタデータ） (2022-10-10T22:48:08Z)
Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文参考訳（メタデータ） (2022-06-06T04:06:21Z)
Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文参考訳（メタデータ） (2020-12-09T13:14:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。