論文の概要: Efficient few-shot learning for pixel-precise handwritten document
layout analysis
- arxiv url: http://arxiv.org/abs/2210.15570v1
- Date: Thu, 27 Oct 2022 16:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:52:01.117211
- Title: Efficient few-shot learning for pixel-precise handwritten document
layout analysis
- Title(参考訳): 画素優先手書き文書レイアウト解析のための能率的少数ショット学習
- Authors: Axel De Nardin, Silvia Zottin, Matteo Paier, Gian Luca Foresti,
Emanuela Colombi, Claudio Piciarelli
- Abstract要約: レイアウト解析のための効率的な数ショット学習フレームワークを提案する。
公開されているDIVA-HisDBデータセット上で、最先端の完全な教師付きメソッドに匹敵するパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 11.453393410516991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layout analysis is a task of uttermost importance in ancient handwritten
document analysis and represents a fundamental step toward the simplification
of subsequent tasks such as optical character recognition and automatic
transcription. However, many of the approaches adopted to solve this problem
rely on a fully supervised learning paradigm. While these systems achieve very
good performance on this task, the drawback is that pixel-precise text labeling
of the entire training set is a very time-consuming process, which makes this
type of information rarely available in a real-world scenario. In the present
paper, we address this problem by proposing an efficient few-shot learning
framework that achieves performances comparable to current state-of-the-art
fully supervised methods on the publicly available DIVA-HisDB dataset.
- Abstract(参考訳): レイアウト解析は手書き文書解析において最も重要なタスクであり、光学文字認識や自動転写といったその後のタスクの簡略化に向けた基本的なステップである。
しかし、この問題を解決するために採用されたアプローチの多くは、完全に教師付き学習パラダイムに依存している。
これらのシステムは、このタスクで非常に優れたパフォーマンスを達成する一方で、トレーニングセット全体のピクセル精度のテキストラベリングは非常に時間を要するため、現実のシナリオでは、この種の情報はめったに利用できない。
本稿では,現在公開されているDIVA-HisDBデータセット上で,最先端の完全教師付き手法に匹敵する性能を実現する,効率的な数ショット学習フレームワークを提案することにより,この問題に対処する。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - UnSupDLA: Towards Unsupervised Document Layout Analysis [11.574592219976823]
重要ではあるがしばしば見落とされがちな問題は、レイアウト解析に必要なラベル付きデータの不足である。
ラベルを使わずにネットワークをトレーニングするために設計された文書レイアウトを,視覚に基づく手法を用いて分析する。
論文 参考訳(メタデータ) (2024-06-10T13:06:28Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks [5.210482046387142]
文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
論文 参考訳(メタデータ) (2020-04-16T05:20:16Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。