論文の概要: Automated document processing system for government agencies using DBNET++ and BART models
- arxiv url: http://arxiv.org/abs/2510.13303v1
- Date: Wed, 15 Oct 2025 08:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.578675
- Title: Automated document processing system for government agencies using DBNET++ and BART models
- Title(参考訳): DBNET++とBARTモデルを用いた政府機関向け文書自動処理システム
- Authors: Aya Kaysan Bahjat,
- Abstract要約: このシステムはオフライン画像と、コネクテッドカメラによるリアルタイムキャプチャの両方をサポートする。
パイプラインは、画像キャプチャと前処理、テキスト検出、テキスト分類の4つのステージで構成されている。
画像中のテキスト検出システムは、Total-Textデータセットで約92.88%から10時間で達成された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An automatic document classification system is presented that detects textual content in images and classifies documents into four predefined categories (Invoice, Report, Letter, and Form). The system supports both offline images (e.g., files on flash drives, HDDs, microSD) and real-time capture via connected cameras, and is designed to mitigate practical challenges such as variable illumination, arbitrary orientation, curved or partially occluded text, low resolution, and distant text. The pipeline comprises four stages: image capture and preprocessing, text detection [1] using a DBNet++ (Differentiable Binarization Network Plus) detector, and text classification [2] using a BART (Bidirectional and Auto-Regressive Transformers) classifier, all integrated within a user interface implemented in Python with PyQt5. The achieved results by the system for text detection in images were good at about 92.88% through 10 hours on Total-Text dataset that involve high resolution images simulate a various and very difficult challenges. The results indicate the proposed approach is effective for practical, mixed-source document categorization in unconstrained imaging scenarios.
- Abstract(参考訳): 画像中のテキスト内容を検出し、文書を予め定義された4つのカテゴリ(請求書、レポート、レター、フォーム)に分類する自動文書分類システムを示す。
このシステムはオフライン画像(フラッシュドライブ上のファイル、HDD、microSDなど)とコネクテッドカメラによるリアルタイムキャプチャの両方をサポートし、可変照明、任意方向、曲面または部分的に隠されたテキスト、低解像度、遠距離テキストといった実用上の課題を軽減するように設計されている。
パイプラインは、イメージキャプチャと前処理、DBNet++(Differentiable Binarization Network Plus)検出器を使用したテキスト検出[1]、BART(Bidirectional and Auto-Regressive Transformers)分類器を使用したテキスト分類[2]の4つのステージで構成され、これらはすべてPythonで実装されたユーザインターフェースにPyQt5で組み込まれている。
画像中のテキスト検出システムは、高解像度画像を含むTotal-Textデータセットの約92.88%から10時間で、様々な、非常に難しい課題をシミュレートした。
その結果,提案手法は,制約のない画像の文書分類に有効であることが示唆された。
関連論文リスト
- TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。