論文の概要: Scalable Mask Annotation for Video Text Spotting
- arxiv url: http://arxiv.org/abs/2305.01443v1
- Date: Tue, 2 May 2023 14:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:16:35.167170
- Title: Scalable Mask Annotation for Video Text Spotting
- Title(参考訳): ビデオテキストスポッティングのためのスケーラブルマスクアノテーション
- Authors: Haibin He, Jing Zhang, Mengyang Xu, Juhua Liu, Bo Du, Dacheng Tao
- Abstract要約: ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
- 参考スコア(独自算出の注目度): 86.72547285886183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video text spotting refers to localizing, recognizing, and tracking textual
elements such as captions, logos, license plates, signs, and other forms of
text within consecutive video frames. However, current datasets available for
this task rely on quadrilateral ground truth annotations, which may result in
including excessive background content and inaccurate text boundaries.
Furthermore, methods trained on these datasets often produce prediction results
in the form of quadrilateral boxes, which limits their ability to handle
complex scenarios such as dense or curved text. To address these issues, we
propose a scalable mask annotation pipeline called SAMText for video text
spotting. SAMText leverages the SAM model to generate mask annotations for
scene text images or video frames at scale. Using SAMText, we have created a
large-scale dataset, SAMText-9M, that contains over 2,400 video clips sourced
from existing datasets and over 9 million mask annotations. We have also
conducted a thorough statistical analysis of the generated masks and their
quality, identifying several research topics that could be further explored
based on this dataset. The code and dataset will be released at
\url{https://github.com/ViTAE-Transformer/SAMText}.
- Abstract(参考訳): ビデオテキストスポッティング(英語: video text spotting)とは、字幕、ロゴ、ライセンスプレート、標識などのテキスト要素を連続したビデオフレーム内でローカライズ、認識、追跡することである。
しかし、このタスクで利用可能な現在のデータセットは、背景の過剰な内容や不正確なテキスト境界を含む、四角形の真理アノテーションに依存している。
さらに、これらのデータセットで訓練された手法は、しばしば四角形のボックスの形で予測結果を生成し、密度の高いテキストや湾曲したテキストのような複雑なシナリオを扱う能力を制限する。
これらの問題に対処するために、ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextはSAMモデルを利用して、シーンテキスト画像やビデオフレームの大規模なマスクアノテーションを生成する。
samtextを使用して、既存のデータセットから派生した2400以上のビデオクリップと900万以上のマスクアノテーションを含む、大規模なデータセットsamtext-9mを作成しました。
我々はまた,生成したマスクとその品質に関する詳細な統計分析を行い,このデータセットに基づいてさらに検討可能ないくつかの研究トピックを特定した。
コードとデータセットは \url{https://github.com/ViTAE-Transformer/SAMText} でリリースされる。
関連論文リスト
- SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:52:59Z) - Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation [97.90960864892966]
本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落を含む4つの階層にまたがるセグメンテーションが優れている。
HierTextのジョイント階層検出とレイアウト解析の以前のスペシャリストと比較して、Hi-SAMは大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-31T15:10:29Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。