論文の概要: GDB: Gated convolutions-based Document Binarization
- arxiv url: http://arxiv.org/abs/2302.02073v1
- Date: Sat, 4 Feb 2023 02:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:35:18.863759
- Title: GDB: Gated convolutions-based Document Binarization
- Title(参考訳): GDB: Gated Convolutionsベースのドキュメントバイナリ化
- Authors: Zongyuan Yang, Yongping Xiong, Guibin Wu
- Abstract要約: 我々は、ゲーティング値の学習としてテキスト抽出を定式化し、不正確なストロークエッジ抽出の問題を解決するために、エンドツーエンドのゲート畳み込みネットワーク(GDB)を提案する。
提案するフレームワークは,2つの段階から構成される。第1に,事前マスクとエッジを供給して,より正確な特徴マップを得るために,エッジブランチを付加した粗いサブネットワークを訓練する。
第2に、シャープエッジに基づくゲート畳み込みにより第1ステージの出力を洗練させるために、精製サブネットワークをカスケードする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document binarization is a key pre-processing step for many document analysis
tasks. However, existing methods can not extract stroke edges finely, mainly
due to the fair-treatment nature of vanilla convolutions and the extraction of
stroke edges without adequate supervision by boundary-related information. In
this paper, we formulate text extraction as the learning of gating values and
propose an end-to-end gated convolutions-based network (GDB) to solve the
problem of imprecise stroke edge extraction. The gated convolutions are applied
to selectively extract the features of strokes with different attention. Our
proposed framework consists of two stages. Firstly, a coarse sub-network with
an extra edge branch is trained to get more precise feature maps by feeding a
priori mask and edge. Secondly, a refinement sub-network is cascaded to refine
the output of the first stage by gated convolutions based on the sharp edge.
For global information, GDB also contains a multi-scale operation to combine
local and global features. We conduct comprehensive experiments on ten Document
Image Binarization Contest (DIBCO) datasets from 2009 to 2019. Experimental
results show that our proposed methods outperform the state-of-the-art methods
in terms of all metrics on average and achieve top ranking on six benchmark
datasets.
- Abstract(参考訳): ドキュメントビナライゼーションは多くの文書分析タスクにおいて重要な前処理ステップである。
しかし,既存の方法では,バニラ畳み込みの公平な処理や境界情報による適切な監視を伴わないストロークエッジの抽出などにより,ストロークエッジを微細に抽出することはできない。
本稿では、ゲーティング値の学習としてテキスト抽出を定式化し、不正確なストロークエッジ抽出の問題を解決するために、エンドツーエンドのゲート畳み込みネットワーク(GDB)を提案する。
ゲート畳み込みを適用して、異なる注意でストロークの特徴を選択的に抽出する。
提案する枠組みは2段階からなる。
まず、余分なエッジブランチを持つ粗いサブネットワークをトレーニングし、プリオリマスクとエッジを入力してより正確な特徴マップを得る。
次に、シャープエッジに基づくゲート畳み込みにより第1段の出力を洗練するために、改良サブネットワークをカスケードする。
グローバル情報に関しては、GDBにはローカル機能とグローバル機能を組み合わせたマルチスケール操作も含まれている。
2009年から2019年にかけて,dibco(document image binarization contest)データセットの総合実験を行った。
実験の結果,提案手法は平均値で最先端手法を上回り,6つのベンチマークデータセットで上位ランキングを得た。
関連論文リスト
- SuperEdge: Towards a Generalization Model for Self-Supervised Edge
Detection [2.912976132828368]
最先端のピクセルワイドアノテーションは労働集約的であり、手作業で取得すると矛盾する。
本稿では, マルチレベルのマルチホログラフィー技術を用いて, 合成データセットから実世界のデータセットへアノテーションを転送する, エッジ検出のための新しい自己教師型アプローチを提案する。
提案手法は,手動の注釈付きエッジラベルへの依存性を排除し,多様なデータセット間の一般化性を向上させる。
論文 参考訳(メタデータ) (2024-01-04T15:21:53Z) - Joint Learning for Scattered Point Cloud Understanding with Hierarchical Self-Distillation [34.26170741722835]
そこで本研究では,部分点雲を高速に補正し,同定するエンド・ツー・エンドアーキテクチャを提案する。
階層型自己蒸留(HSD)は任意の階層ベースの点雲法に適用できる。
論文 参考訳(メタデータ) (2023-12-28T08:51:04Z) - Morphologically-Aware Consensus Computation via Heuristics-based
IterATive Optimization (MACCHIatO) [1.8749305679160362]
本稿では,慎重に選択された距離のFr'echet平均に基づいて,二分法あるいは確率的コンセンサスセグメンテーションを構築する手法を提案する。
その結果,2値のコンセンサスマスクが多数投票とSTAPLEの中間サイズとなり,Mask Averaging法とSTAPLE法との違いが判明した。
論文 参考訳(メタデータ) (2023-09-14T23:28:58Z) - BiSVP: Building Footprint Extraction via Bidirectional Serialized Vertex
Prediction [43.61580149432732]
BiSVPは、改良のないエンドツーエンドの建築フットプリント抽出手法である。
本稿では,高解像度でリッチなセマンティックな特徴学習を実現するために,CSFFモジュールを提案する。
当社のBiSVPは,3つのビルディングインスタンスセグメンテーションベンチマークにおいて,最先端の手法よりもかなり優れている。
論文 参考訳(メタデータ) (2023-03-01T07:50:34Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - General Cutting Planes for Bound-Propagation-Based Neural Network
Verification [144.7290035694459]
任意の切削平面制約を加えることができるような境界伝搬手順を一般化する。
MIPソルバは、境界プロパゲーションベースの検証器を強化するために高品質な切削面を生成することができる。
本手法は,oval20ベンチマークを完全解き,oval21ベンチマークの2倍のインスタンスを検証できる最初の検証器である。
論文 参考訳(メタデータ) (2022-08-11T10:31:28Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Copy-Move Image Forgery Detection Based on Evolving Circular Domains
Coverage [5.716030416222748]
提案手法はブロックベースとキーポイントベースの両方の偽造検出手法を統合する。
実験結果から, CMFD方式により, 種々の攻撃による検出性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-09-09T16:08:03Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Boundary-assisted Region Proposal Networks for Nucleus Segmentation [89.69059532088129]
大量の核が混在しているため、機械学習モデルはうまく機能しない。
我々は、堅牢なインスタンスレベルの核分割を実現する境界支援領域提案ネットワーク(BRP-Net)を考案する。
論文 参考訳(メタデータ) (2020-06-04T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。