論文の概要: Text images processing system using artificial intelligence models
- arxiv url: http://arxiv.org/abs/2512.11691v1
- Date: Fri, 12 Dec 2025 16:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.838131
- Title: Text images processing system using artificial intelligence models
- Title(参考訳): 人工知能モデルを用いたテキスト画像処理システム
- Authors: Aya Kaysan Bahjat,
- Abstract要約: このデバイスはギャラリーモードをサポートし、ユーザーはフラッシュディスク、ハードディスクドライブ、microSDカードのファイルを閲覧できる。
このシステムは、上述したTotal-Textデータセットで10時間以上テストされたときに、約94.62%のテキスト認識率を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is to present a text image classifier device that identifies textual content in images and then categorizes each image into one of four predefined categories, including Invoice, Form, Letter, or Report. The device supports a gallery mode, in which users browse files on flash disks, hard disk drives, or microSD cards, and a live mode which renders feeds of cameras connected to it. Its design is specifically aimed at addressing pragmatic challenges, such as changing light, random orientation, curvature or partial coverage of text, low resolution, and slightly visible text. The steps of the processing process are divided into four steps: image acquisition and preprocessing, textual elements detection with the help of DBNet++ (Differentiable Binarization Network Plus) model, BART (Bidirectional Auto-Regressive Transformers) model that classifies detected textual elements, and the presentation of the results through a user interface written in Python and PyQt5. All the stages are connected in such a way that they form a smooth workflow. The system achieved a text recognition rate of about 94.62% when tested over ten hours on the mentioned Total-Text dataset, that includes high resolution images, created so as to represent a wide range of problematic conditions. These experimental results support the effectiveness of the suggested methodology to practice, mixed-source text categorization, even in uncontrolled imaging conditions.
- Abstract(参考訳): 本発明は、画像中のテキスト内容を特定し、各画像を、請求書、フォーム、レター、レポートを含む4つの予め定義されたカテゴリの1つに分類するテキスト画像分類装置を提案する。
このデバイスはギャラリーモードをサポートし、ユーザーはフラッシュディスク、ハードディスクドライブ、microSDカードのファイルを閲覧できる。
その設計は、光、ランダムな向き、曲率、テキストの部分的カバレッジ、解像度の低さ、わずかに見えるテキストなど、現実的な課題に対処することを目的としている。
処理プロセスのステップは、画像取得と前処理、DBNet++(Differentiable Binarization Network Plus)モデルによるテキスト要素の検出、検出されたテキスト要素を分類するBART(Bidirectional Auto-Regressive Transformers)モデル、PythonとPyQt5で記述されたユーザインターフェースによる結果の提示である。
すべてのステージは、スムーズなワークフローを形成するような方法で接続されます。
このシステムは、問題のある幅広い状況を表すために作成された高解像度の画像を含む、上述のTotal-Textデータセットで10時間にわたってテストされたときに、約94.62%のテキスト認識率を達成した。
これらの実験結果は,未制御の撮像条件においても,提案手法の有効性を裏付けるものである。
関連論文リスト
- Automated document processing system for government agencies using DBNET++ and BART models [0.0]
このシステムはオフライン画像と、コネクテッドカメラによるリアルタイムキャプチャの両方をサポートする。
パイプラインは、画像キャプチャと前処理、テキスト検出、テキスト分類の4つのステージで構成されている。
画像中のテキスト検出システムは、Total-Textデータセットで約92.88%から10時間で達成された。
論文 参考訳(メタデータ) (2025-10-15T08:48:02Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。