論文の概要: Theoretical Analysis of Power-law Transformation on Images for Text Polarity Detection
- arxiv url: http://arxiv.org/abs/2511.07916v1
- Date: Wed, 12 Nov 2025 01:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.540934
- Title: Theoretical Analysis of Power-law Transformation on Images for Text Polarity Detection
- Title(参考訳): テキストの極性検出のための画像におけるパワー・ロー変換の理論解析
- Authors: Narendra Singh Yadav, Pavan Kumar Perepu,
- Abstract要約: テキストの極性は、背景に対するテキストのコントラストとして定義される。
バイナライズ処理は、この極性情報を用いて、原色またはグレースケールの画像をバイナリ画像に変換する。
テキストと背景を2つのクラスとして考えると、2つのクラス間でのクラス間の最大ばらつきが増大していることが観察されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several computer vision applications like vehicle license plate recognition, captcha recognition, printed or handwriting character recognition from images etc., text polarity detection and binarization are the important preprocessing tasks. To analyze any image, it has to be converted to a simple binary image. This binarization process requires the knowledge of polarity of text in the images. Text polarity is defined as the contrast of text with respect to background. That means, text is darker than the background (dark text on bright background) or vice-versa. The binarization process uses this polarity information to convert the original colour or gray scale image into a binary image. In the literature, there is an intuitive approach based on power-law transformation on the original images. In this approach, the authors have illustrated an interesting phenomenon from the histogram statistics of the transformed images. Considering text and background as two classes, they have observed that maximum between-class variance between two classes is increasing (decreasing) for dark (bright) text on bright (dark) background. The corresponding empirical results have been presented. In this paper, we present a theoretical analysis of the above phenomenon.
- Abstract(参考訳): 車両ナンバープレート認識、キャプチャ認識、画像からの印刷または手書き文字認識、テキストの極性検出、バイナライゼーションなどのコンピュータビジョンアプリケーションは、重要な前処理タスクである。
任意の画像を解析するには、単純なバイナリ画像に変換する必要がある。
この双対化プロセスは、画像中のテキストの極性に関する知識を必要とする。
テキストの極性は、背景に対するテキストのコントラストとして定義される。
つまり、テキストは背景(明るい背景の暗いテキスト)や逆転よりも暗い。
バイナライズ処理は、この極性情報を用いて、原色またはグレースケールの画像をバイナリ画像に変換する。
文献では、原画像のパワー・ロー変換に基づく直感的なアプローチが存在する。
このアプローチでは、変換された画像のヒストグラム統計から興味深い現象が説明されている。
テキストと背景を2つのクラスとして考えると、明るい(暗い)背景の暗い(明るい)テキストに対して、2つのクラス間のクラス間の最大差が増加(減少)している。
対応する実験結果が提示されている。
本稿では,この現象の理論的解析について述べる。
関連論文リスト
- Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition [68.95544645458882]
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
論文 参考訳(メタデータ) (2021-05-18T09:20:58Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Learning Transformation-Aware Embeddings for Image Forensics [15.484408315588569]
Image Provenance Analysisは、コンテンツを共有するさまざまな操作されたイメージバージョン間の関係を見つけることを目的としている。
証明分析のための主要なサブプロブレムの1つは、完全なコンテンツを共有したり、ほぼ重複している画像の編集順序である。
本稿では,1つの画像から生成した画像に対して,変換を通じて妥当な順序付けを行うための,新しい深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-13T22:01:24Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [14.288195935837866]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。