論文の概要: Broken News: Making Newspapers Accessible to Print-Impaired
- arxiv url: http://arxiv.org/abs/2206.10225v1
- Date: Tue, 21 Jun 2022 09:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 02:58:47.927878
- Title: Broken News: Making Newspapers Accessible to Print-Impaired
- Title(参考訳): 廃刊ニュース:新聞に印刷障害を与える
- Authors: Vishal Agarwal, Tanuja Ganu, Saikat Guha
- Abstract要約: 本稿では,印刷新聞をHTMLなどのアクセス可能なファイル形式にデジタル化する手法を提案する。
新聞のレイアウト分析には,事例分割と検出のフレームワークのアンサンブルを使用し,見出しや記事テキストなどのテキスト要素をOCRで認識する。
- 参考スコア(独自算出の注目度): 3.2985128451599133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accessing daily news content still remains a big challenge for people with
print-impairment including blind and low-vision due to opacity of printed
content and hindrance from online sources. In this paper, we present our
approach for digitization of print newspaper into an accessible file format
such as HTML. We use an ensemble of instance segmentation and detection
framework for newspaper layout analysis and then OCR to recognize text elements
such as headline and article text. Additionally, we propose EdgeMask loss
function for Mask-RCNN framework to improve segmentation mask boundary and
hence accuracy of downstream OCR task. Empirically, we show that our proposed
loss function reduces the Word Error Rate (WER) of news article text by 32.5 %.
- Abstract(参考訳): 毎日のニュースコンテンツにアクセスすることは、印刷コンテンツの不透明さやオンラインソースからの障害のため、盲目や視力の低い人たちにとって依然として大きな課題だ。
本稿では,印刷新聞をHTMLなどのアクセス可能なファイル形式にデジタル化する手法を提案する。
新聞のレイアウト分析には,事例分割と検出のフレームワークのアンサンブルを使用し,見出しや記事テキストなどのテキスト要素をOCRで認識する。
さらに,mask-rcnnフレームワークのエッジマスク損失関数を提案し,セグメンテーションマスク境界を改善し,従って下流のocrタスクの精度を向上させる。
実験により,提案した損失関数は,ニュース記事の単語誤り率(WER)を32.5%削減することを示した。
関連論文リスト
- The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge [19.339645217996235]
本稿では,紙の数字に対して生成されたキャプションの品質を改善するためのソリューションを提案する。
最終テストでは4.49点で1位にランクインした。
論文 参考訳(メタデータ) (2024-03-26T03:03:50Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Segmenting Messy Text: Detecting Boundaries in Text Derived from
Historical Newspaper Images [0.0]
新聞の結婚発表リストを1つの発表単位に分けるという,困難なテキストセグメンテーションの課題について考察する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
本稿では,このようなテキストをセグメント化するための新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T05:17:06Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - Detection Masking for Improved OCR on Noisy Documents [8.137198664755596]
本稿では,文書上でのOCRの品質向上を目的として,マスキングシステムによる検出ネットワークの改良について述べる。
本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。
論文 参考訳(メタデータ) (2022-05-17T11:59:18Z) - DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts [2.885058600042882]
この研究は、21の異なる州から3000の完全な注釈付き現実世界の新聞画像のデータセットを公開している。
既存の光学式文字認識(OCR)エンジンの先駆けとしてレイアウトセグメンテーションを提案する。
独立したレイアウトセグメンテーションとエンドツーエンドのOCRのための、徹底的で構造化された評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-02-03T05:21:31Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。