論文の概要: Text images processing system using artificial intelligence models
- arxiv url: http://arxiv.org/abs/2512.11691v1
- Date: Fri, 12 Dec 2025 16:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.838131
- Title: Text images processing system using artificial intelligence models
- Title(参考訳): 人工知能モデルを用いたテキスト画像処理システム
- Authors: Aya Kaysan Bahjat,
- Abstract要約: このデバイスはギャラリーモードをサポートし、ユーザーはフラッシュディスク、ハードディスクドライブ、microSDカードのファイルを閲覧できる。
このシステムは、上述したTotal-Textデータセットで10時間以上テストされたときに、約94.62%のテキスト認識率を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is to present a text image classifier device that identifies textual content in images and then categorizes each image into one of four predefined categories, including Invoice, Form, Letter, or Report. The device supports a gallery mode, in which users browse files on flash disks, hard disk drives, or microSD cards, and a live mode which renders feeds of cameras connected to it. Its design is specifically aimed at addressing pragmatic challenges, such as changing light, random orientation, curvature or partial coverage of text, low resolution, and slightly visible text. The steps of the processing process are divided into four steps: image acquisition and preprocessing, textual elements detection with the help of DBNet++ (Differentiable Binarization Network Plus) model, BART (Bidirectional Auto-Regressive Transformers) model that classifies detected textual elements, and the presentation of the results through a user interface written in Python and PyQt5. All the stages are connected in such a way that they form a smooth workflow. The system achieved a text recognition rate of about 94.62% when tested over ten hours on the mentioned Total-Text dataset, that includes high resolution images, created so as to represent a wide range of problematic conditions. These experimental results support the effectiveness of the suggested methodology to practice, mixed-source text categorization, even in uncontrolled imaging conditions.
- Abstract(参考訳): 本発明は、画像中のテキスト内容を特定し、各画像を、請求書、フォーム、レター、レポートを含む4つの予め定義されたカテゴリの1つに分類するテキスト画像分類装置を提案する。
このデバイスはギャラリーモードをサポートし、ユーザーはフラッシュディスク、ハードディスクドライブ、microSDカードのファイルを閲覧できる。
その設計は、光、ランダムな向き、曲率、テキストの部分的カバレッジ、解像度の低さ、わずかに見えるテキストなど、現実的な課題に対処することを目的としている。
処理プロセスのステップは、画像取得と前処理、DBNet++(Differentiable Binarization Network Plus)モデルによるテキスト要素の検出、検出されたテキスト要素を分類するBART(Bidirectional Auto-Regressive Transformers)モデル、PythonとPyQt5で記述されたユーザインターフェースによる結果の提示である。
すべてのステージは、スムーズなワークフローを形成するような方法で接続されます。
このシステムは、問題のある幅広い状況を表すために作成された高解像度の画像を含む、上述のTotal-Textデータセットで10時間にわたってテストされたときに、約94.62%のテキスト認識率を達成した。
これらの実験結果は,未制御の撮像条件においても,提案手法の有効性を裏付けるものである。
関連論文リスト
- Automated document processing system for government agencies using DBNET++ and BART models [0.0]
このシステムはオフライン画像と、コネクテッドカメラによるリアルタイムキャプチャの両方をサポートする。
パイプラインは、画像キャプチャと前処理、テキスト検出、テキスト分類の4つのステージで構成されている。
画像中のテキスト検出システムは、Total-Textデータセットで約92.88%から10時間で達成された。
論文 参考訳(メタデータ) (2025-10-15T08:48:02Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Aggregated Text Transformer for Scene Text Detection [5.387121933662753]
本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。
マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。
提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。
論文 参考訳(メタデータ) (2022-11-25T09:47:34Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - TextMatcher: Cross-Attentional Neural Network to Compare Image and Text [0.0]
この問題に特化して設計された最初の機械学習モデルを考案する。
一般的なIAMデータセット上で,TextMatcherの実証性能を広範囲に評価した。
銀行のキーの自動処理に関する現実的なアプリケーションシナリオとして,TextMatcherを紹介した。
論文 参考訳(メタデータ) (2022-05-11T14:01:12Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。