論文の概要: Text-Aware Single Image Specular Highlight Removal
- arxiv url: http://arxiv.org/abs/2108.06881v1
- Date: Mon, 16 Aug 2021 03:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:04:37.861362
- Title: Text-Aware Single Image Specular Highlight Removal
- Title(参考訳): テキスト対応単一画像のハイライト除去
- Authors: Shiyu Hou, Chaoqun Wang, Weize Quan, Jingen Jiang, Dong-Ming Yan
- Abstract要約: 既存の手法では、医用画像や特定対象画像のハイライトを除去するが、テキストで画像を扱うことはできない。
本稿ではまず,テキスト認識による単一画像のハイライト除去問題について検討する。
中心となる目標は、テキスト画像からハイライトを取り除き、テキストの検出と認識の精度を向上させることである。
- 参考スコア(独自算出の注目度): 14.624958411229862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Removing undesirable specular highlight from a single input image is of
crucial importance to many computer vision and graphics tasks. Existing methods
typically remove specular highlight for medical images and specific-object
images, however, they cannot handle the images with text. In addition, the
impact of specular highlight on text recognition is rarely studied by text
detection and recognition community. Therefore, in this paper, we first raise
and study the text-aware single image specular highlight removal problem. The
core goal is to improve the accuracy of text detection and recognition by
removing the highlight from text images. To tackle this challenging problem, we
first collect three high-quality datasets with fine-grained annotations, which
will be appropriately released to facilitate the relevant research. Then, we
design a novel two-stage network, which contains a highlight detection network
and a highlight removal network. The output of highlight detection network
provides additional information about highlight regions to guide the subsequent
highlight removal network. Moreover, we suggest a measurement set including the
end-to-end text detection and recognition evaluation and auxiliary visual
quality evaluation. Extensive experiments on our collected datasets demonstrate
the superior performance of the proposed method.
- Abstract(参考訳): 単一の入力画像から望ましくないスペックのハイライトを取り除くことは、多くのコンピュータビジョンやグラフィックタスクにとって非常に重要である。
既存の手法では、医用画像や特定対象画像のハイライトを除去するが、テキストで画像を扱うことはできない。
また,テキスト認識におけるスペクティカルハイライトの影響は,テキスト検出と認識コミュニティで研究されることは稀である。
そこで,本稿ではまず,テキスト対応の単一画像ハイライト除去問題を提起し,研究する。
中心となる目標は、テキスト画像からハイライトを取り除き、テキストの検出と認識の精度を向上させることである。
この課題に対処するため、まず3つの高品質なデータセットを詳細なアノテーションで収集し、関連する研究を促進するために適切にリリースする。
そこで我々は,ハイライト検出ネットワークとハイライト除去ネットワークを含む新しい2段階ネットワークを設計した。
ハイライト検出ネットワークの出力は、ハイライト除去ネットワークをガイドするためにハイライト領域に関する追加情報を提供する。
また,エンド・ツー・エンドのテキスト検出・認識評価と補助視覚品質評価を含む測定セットを提案する。
収集したデータセットに対する大規模な実験により,提案手法の優れた性能が示された。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Task-driven single-image super-resolution reconstruction of document scans [2.8391355909797644]
文書スキャンから光学的文字認識を改善するために,超解像を前処理ステップとして活用する可能性を検討する。
そこで本研究では,単一画像の超解像のための深層ネットワークをタスク駆動方式で訓練し,テキスト検出のための適応性を高めることを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:18:26Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - M2-Net: Multi-stages Specular Highlight Detection and Removal in
Multi-scenes [3.312427167335527]
フレームワークは3つの主要コンポーネント、ハイライト機能抽出モジュール、ハイライト粗い除去モジュール、ハイライト精細化モジュールで構成されている。
提案アルゴリズムは,ビデオハイライト除去において,有望な結果とともに初めて適用された。
論文 参考訳(メタデータ) (2022-07-20T15:18:43Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Text Detection and Recognition in the Wild: A Review [7.43788469020627]
最先端のシーンテキスト検出および/または認識手法は、ディープラーニングアーキテクチャの進歩を生かしている。
本稿では,シーンテキストの検出と認識の最近の進歩についてレビューする。
また、野生の画像中のテキストを検出し、認識するためのいくつかの既存の課題を特定する。
論文 参考訳(メタデータ) (2020-06-08T01:08:04Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。