論文の概要: Rooms with Text: A Dataset for Overlaying Text Detection
- arxiv url: http://arxiv.org/abs/2211.11350v1
- Date: Mon, 21 Nov 2022 11:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:58:13.456415
- Title: Rooms with Text: A Dataset for Overlaying Text Detection
- Title(参考訳): room with text: テキスト検出をオーバーレイするためのデータセット
- Authors: Oleg Smirnov, Aditya Tewari
- Abstract要約: オーバレイとシーンテキストを用いた室内画像の新しいデータセットを導入し,計4836枚の注釈付き画像を25種類の製品カテゴリに分類した。
本稿では,文字領域を意識したテキスト検出フレームワークを活用して分類モデルを導出するテキスト検出のベースライン手法を提案する。
- 参考スコア(独自算出の注目度): 0.18275108630751835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce a new dataset of room interior pictures with
overlaying and scene text, totalling to 4836 annotated images in 25 product
categories. We provide details on the collection and annotation process of our
dataset, and analyze its statistics. Furthermore, we propose a baseline method
for overlaying text detection, that leverages the character region-aware text
detection framework to guide the classification model. We validate our approach
and show its efficiency in terms of binary classification metrics, reaching the
final performance of 0.95 F1 score, with false positive and false negative
rates of 0.02 and 0.06 correspondingly.
- Abstract(参考訳): 本稿では,25の製品カテゴリに4836の注釈付き画像を含む,オーバレイとシーンテキストを用いた室内画像の新しいデータセットを提案する。
データセットの収集とアノテーションのプロセスの詳細を提供し、統計を分析します。
さらに,文字領域認識型テキスト検出フレームワークを利用して分類モデルを導出する,重ね合わせテキスト検出のベースライン手法を提案する。
提案手法の妥当性を検証し,2値分類指標による効率性を示し,0.95 F1スコア,偽陰性率0.02,偽陰性率0.006に到達した。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual
representations [4.588028371034406]
画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。
共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。
ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
論文 参考訳(メタデータ) (2022-11-14T05:17:51Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Czech News Dataset for Semantic Textual Similarity [0.0]
本稿では,意味的類似性アノテーションを用いた文からなる新しいデータセットについて述べる。
このデータは、チェコ語におけるジャーナリストの領域に由来する。
データセットには、138,556人のアノテーションが列車とテストセットに分割されている。
論文 参考訳(メタデータ) (2021-08-19T14:20:17Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - Line Segmentation from Unconstrained Handwritten Text Images using
Adaptive Approach [10.436029791699777]
手書きテキスト画像からの行分割は、多様性と未知のバリエーションのために難しい課題である。
接続されたコンポーネント座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的アプローチを用いる。
提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。
論文 参考訳(メタデータ) (2021-04-18T08:52:52Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。