論文の概要: Binarizing Documents by Leveraging both Space and Frequency
- arxiv url: http://arxiv.org/abs/2404.17243v1
- Date: Fri, 26 Apr 2024 08:31:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:44:15.332025
- Title: Binarizing Documents by Leveraging both Space and Frequency
- Title(参考訳): 空間と周波数の両利用による文書のバイナリ化
- Authors: Fabio Quattrini, Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara,
- Abstract要約: 文書画像のバイナリ化は、文書解析とコンピュータビジョンにおいてよく知られた問題である。
本稿では,最近導入されたFast Fourier Convolutionsに基づく代替ソリューションを提案する。
- 参考スコア(独自算出の注目度): 33.334956022229846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Image Binarization is a well-known problem in Document Analysis and Computer Vision, although it is far from being solved. One of the main challenges of this task is that documents generally exhibit degradations and acquisition artifacts that can greatly vary throughout the page. Nonetheless, even when dealing with a local patch of the document, taking into account the overall appearance of a wide portion of the page can ease the prediction by enriching it with semantic information on the ink and background conditions. In this respect, approaches able to model both local and global information have been proven suitable for this task. In particular, recent applications of Vision Transformer (ViT)-based models, able to model short and long-range dependencies via the attention mechanism, have demonstrated their superiority over standard Convolution-based models, which instead struggle to model global dependencies. In this work, we propose an alternative solution based on the recently introduced Fast Fourier Convolutions, which overcomes the limitation of standard convolutions in modeling global information while requiring fewer parameters than ViTs. We validate the effectiveness of our approach via extensive experimental analysis considering different types of degradations.
- Abstract(参考訳): 文書画像のバイナリ化は、文書解析とコンピュータビジョンにおいてよく知られた問題であるが、解決には程遠い。
このタスクの主な課題の1つは、ドキュメントが一般的にページ全体で大きく異なる、劣化と獲得の成果物を示すことである。
それでも、文書の局所的なパッチを扱う場合でも、ページの広い部分の全体像を考慮すると、インクや背景条件のセマンティックな情報によって、予測が楽になる。
この点において、地域情報とグローバル情報の両方をモデル化できるアプローチが、この課題に適していることが証明されている。
特に、ViT(Vision Transformer)ベースのモデルでは、注意機構を通じて短距離および長距離の依存関係をモデル化することができ、代わりにグローバルな依存関係をモデル化するのに苦労する標準的な畳み込みベースのモデルよりも優位性を証明している。
本稿では,最近導入されたFast Fourier Convolutionsに基づく代替ソリューションを提案する。これは,ViTよりも少ないパラメータを必要としながら,グローバル情報モデリングにおける標準畳み込みの制限を克服するものである。
各種の劣化を考慮した広範囲な実験解析により, 本手法の有効性を検証した。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Recurrent Few-Shot model for Document Verification [1.9686770963118383]
汎用ID, 旅行, 文書画像, 映像ベースの検証システムはまだ, 解決すべき問題として十分な性能を達成できていない。
本稿では,数ショットのシナリオで偽文書を検出可能なリカレントベースモデルを提案する。
SIDTDとFinditデータセットの予備的な結果は、このタスクのためにこのモデルの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-03T13:05:27Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM) [0.0]
本研究では,文書スキューが3つの最先端マルチモーダルモデルのデータの抽出精度に与える影響について検討した。
モデル毎に安全な面内回転角(SIPRA)を同定し,スキューがモデル幻覚に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-06-13T08:55:01Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - GlobalDoc: A Cross-Modal Vision-Language Framework for Real-World Document Image Retrieval and Classification [8.880856137902947]
我々は、自己教師型で事前訓練されたクロスモーダルトランスフォーマーベースのアーキテクチャであるGlobalDocを紹介する。
GlobalDocは、言語と視覚表現を統合することによって、よりリッチなセマンティックな概念の学習を改善する。
適切な評価のために,Few-Shot Document Image Classification (DIC)とContent-based Document Image Retrieval (DIR)の2つの新しい文書レベル下流VDUタスクを提案する。
論文 参考訳(メタデータ) (2023-09-11T18:35:14Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - TFS-ViT: Token-Level Feature Stylization for Domain Generalization [17.82872117103924]
視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
本稿では,ドメイン一般化のためのToken-level Feature Stylization (TFS-ViT) アプローチを提案する。
提案手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。
論文 参考訳(メタデータ) (2023-03-28T03:00:28Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。