論文の概要: DIVA-DAF: A Deep Learning Framework for Historical Document Image
Analysis
- arxiv url: http://arxiv.org/abs/2201.08295v3
- Date: Thu, 15 Feb 2024 10:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:33:39.090678
- Title: DIVA-DAF: A Deep Learning Framework for Historical Document Image
Analysis
- Title(参考訳): DIVA-DAF: 歴史的文書画像解析のためのディープラーニングフレームワーク
- Authors: Lars V\"ogtlin, Anna Scius-Bertrand, Paul Maergner, Andreas Fischer,
Rolf Ingold
- Abstract要約: 本研究では,歴史的文書解析に特化して設計されたオープンソースのディープラーニングフレームワークであるDIVA-DAFを提案する。
データや大規模なデータセットをロードする強力なモジュールの恩恵を受けることで、自分自身のタスクを簡単に作成できます。
データモジュールのおかげで、このフレームワークはモデルのトレーニング時間を大幅に短縮できる。
- 参考スコア(独自算出の注目度): 0.6551090704585544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning methods have shown strong performance in solving tasks for
historical document image analysis. However, despite current libraries and
frameworks, programming an experiment or a set of experiments and executing
them can be time-consuming. This is why we propose an open-source deep learning
framework, DIVA-DAF, which is based on PyTorch Lightning and specifically
designed for historical document analysis. Pre-implemented tasks such as
segmentation and classification can be easily used or customized. It is also
easy to create one's own tasks with the benefit of powerful modules for loading
data, even large data sets, and different forms of ground truth. The
applications conducted have demonstrated time savings for the programming of a
document analysis task, as well as for different scenarios such as pre-training
or changing the architecture. Thanks to its data module, the framework also
allows to reduce the time of model training significantly.
- Abstract(参考訳): 深層学習法は, 歴史的文書画像解析における課題解決において, 高い性能を示した。
しかし、現在のライブラリやフレームワークにもかかわらず、実験や一連の実験をプログラミングし、それらを実行するのに時間がかかる。
そこで我々は、PyTorch LightningをベースにしたオープンソースのディープラーニングフレームワークであるDIVA-DAFを提案する。
セグメンテーションや分類といった事前実装されたタスクは簡単に使用またはカスタマイズできる。
また、データを読み込むための強力なモジュール、大きなデータセット、そして異なる形式の根拠の真理によって、自分自身のタスクを作成するのも簡単です。
実行されたアプリケーションは、ドキュメント分析タスクのプログラミングや、アーキテクチャの事前トレーニングや変更といったさまざまなシナリオの時間節約を実証している。
データモジュールのおかげで、このフレームワークはモデルのトレーニング時間を大幅に削減できる。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - DistilDoc: Knowledge Distillation for Visually-Rich Document Applications [22.847266820057985]
本研究は,文書レイアウト分析 (DLA) や文書画像分類 (DIC) など,視覚的にリッチな文書アプリケーションのための知識蒸留について検討する。
我々は、より大きなタスクパイプラインに不可欠な文書理解タスクにおいて、よりリーンでパフォーマンスの高いモデルのためのKD実験手法を設計する。
教師と学生の知識ギャップに影響を与えるものについて検討し、いくつかの方法(適応プロジェクタを用いたバニラKD、MSE、SimKD)が、教師付き学生の訓練より一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-12T13:55:12Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。
本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。
また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文 参考訳(メタデータ) (2023-03-14T10:34:07Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。
近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。
そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文 参考訳(メタデータ) (2021-09-10T14:12:37Z) - LayoutParser: A Unified Toolkit for Deep Learning Based Document Image
Analysis [3.4253416336476246]
本稿では,文書画像解析(DIA)研究における深層学習(DL)モデルの利用を合理化するためのオープンソースのライブラリであるレイアウトパーサを紹介する。
layoutparserには、レイアウト検出、文字認識、および他の多くのドキュメント処理タスクのためのDLモデルを適用およびカスタマイズするためのシンプルで直感的なインターフェースのセットが付属しています。
layoutparserは、リアルタイムのユースケースにおける軽量パイプラインと大規模パイプラインの両方に有用であることを示す。
論文 参考訳(メタデータ) (2021-03-29T05:55:08Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。