論文の概要: A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement
- arxiv url: http://arxiv.org/abs/2312.03946v1
- Date: Wed, 6 Dec 2023 23:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:40:16.755677
- Title: A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement
- Title(参考訳): 歴史的文書画像エンハンス向上のための階層型トークン・ツー・トケントランスネットワーク
- Authors: Risab Biswas, Swalpa Kumar Roy, Umapada Pal
- Abstract要約: Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 13.27528507177775
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document image enhancement is a fundamental and important stage for attaining
the best performance in any document analysis assignment because there are many
degradation situations that could harm document images, making it more
difficult to recognize and analyze them. In this paper, we propose
\textbf{T2T-BinFormer} which is a novel document binarization encoder-decoder
architecture based on a Tokens-to-token vision transformer. Each image is
divided into a set of tokens with a defined length using the ViT model, which
is then applied several times to model the global relationship between the
tokens. However, the conventional tokenization of input data does not
adequately reflect the crucial local structure between adjacent pixels of the
input image, which results in low efficiency. Instead of using a simple ViT and
hard splitting of images for the document image enhancement task, we employed a
progressive tokenization technique to capture this local information from an
image to achieve more effective results. Experiments on various DIBCO and
H-DIBCO benchmarks demonstrate that the proposed model outperforms the existing
CNN and ViT-based state-of-the-art methods. In this research, the primary area
of examination is the application of the proposed architecture to the task of
document binarization. The source code will be made available at
https://github.com/RisabBiswas/T2T-BinFormer.
- Abstract(参考訳): 文書画像エンハンスメントは、文書画像に害を与えるような多くの劣化状況があり、文書画像の認識と解析がより困難であるため、文書解析の割り当てにおいて最高の性能を達成するための基本的かつ重要なステージである。
本稿では,Tokens-token視覚変換器をベースとした新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである \textbf{T2T-BinFormer} を提案する。
各画像はvitモデルを用いて定義された長さのトークンの集合に分割され、トークン間のグローバル関係をモデル化するために数回適用される。
しかし、従来の入力データのトークン化は、入力画像の隣接画素間の重要な局所構造を十分に反映しないため、効率が低下する。
文書画像強調タスクにおいて、簡単なViTや画像のハード分割ではなく、プログレッシブトークン化技術を用いて画像からこの局所情報をキャプチャし、より効果的な結果を得る。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
本研究の主要な分野は,文書双対化作業へのアーキテクチャの応用である。
ソースコードはhttps://github.com/RisabBiswas/T2T-BinFormerで入手できる。
関連論文リスト
- High-Resolution Image Synthesis via Next-Token Prediction [13.131691198804127]
D-JEPA$cdot$T2Iは,フローマッチング損失を取り入れたD-JEPAの拡張であり,連続的な解像度学習を可能にする。
我々は,次世代の予測により,最先端のテクスチャ高分解能画像合成を初めて達成した。
論文 参考訳(メタデータ) (2024-11-22T09:08:58Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - DocBinFormer: A Two-Level Transformer Network for Effective Document
Image Binarization [17.087982099845156]
文書のバイナライゼーションは、あらゆる文書分析タスクにおいて最も最適なパフォーマンスを達成するための基本的で重要なステップである。
文書画像の効果的なバイナライゼーションのための視覚変換器をベースとした新しい2レベル視覚変換器(TL-ViT)アーキテクチャであるDocBinFormerを提案する。
論文 参考訳(メタデータ) (2023-12-06T16:01:29Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - DocEnTr: An End-to-End Document Image Enhancement Transformer [13.108797370734893]
文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。
本稿では,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-01-25T11:45:35Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。