論文の概要: DIVA-DAF: A Deep Learning Framework for Historical Document Image
Analysis
- arxiv url: http://arxiv.org/abs/2201.08295v2
- Date: Fri, 21 Jan 2022 14:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 11:23:57.256467
- Title: DIVA-DAF: A Deep Learning Framework for Historical Document Image
Analysis
- Title(参考訳): DIVA-DAF: 歴史的文書画像解析のためのディープラーニングフレームワーク
- Authors: Lars V\"ogtlin, Paul Maergner, Rolf Ingold
- Abstract要約: 我々はDIVA-DAFと呼ばれる新しいディープラーニングフレームワークを導入する。
本フレームワークを用いたDIVA-HisDBのセマンティックセマンティックセマンティクス実験について述べる。
- 参考スコア(独自算出の注目度): 1.1458853556386794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new deep learning framework called DIVA-DAF. We
have developed this framework to support our research on historical document
image analysis tasks and to develop techniques to reduce the need for
manually-labeled ground truth. We want to apply self-supervised learning
techniques and use different kinds of training data. Our new framework aids us
in performing rapid prototyping and reproducible experiments. We present a
first semantic segmentation experiment on DIVA-HisDB using our framework,
achieving state-of-the-art results. The DIVA-DAF framework is open-source, and
we encourage other research groups to use it for their experiments.
- Abstract(参考訳): 本稿では,DIVA-DAFと呼ばれる新しいディープラーニングフレームワークを提案する。
この枠組みは,歴史的文書画像解析タスクの研究を支援するとともに,手作業による土台真理の必要性を軽減する技術を開発する。
私たちは、自己教師付き学習技術を適用し、異なる種類のトレーニングデータを使用したいと思っています。
我々の新しいフレームワークは、迅速にプロトタイピングと再現可能な実験を行うのに役立ちます。
本フレームワークを用いてDIVA-HisDB上でのセマンティックセマンティックセマンティックなセマンティックなセマンティクス実験を行った。
DIVA-DAFフレームワークはオープンソースであり、他の研究グループが実験に使用することを推奨します。
関連論文リスト
- Deep Configuration Performance Learning: A Systematic Survey and
Taxonomy [3.635696352780227]
我々は、構成されたソフトウェアの性能学習におけるディープラーニングのトピックについてレビューを行う。
調査対象は6つの索引付けサービスにまたがる948件の検索論文で,85件の一次論文を抽出,分析した。
この結果から,構成データの作成方法,深層構成性能学習モデルの構築方法,モデルの評価方法,活用方法など,重要なトピックと統計情報を要約した。
論文 参考訳(メタデータ) (2024-03-05T21:05:16Z) - An Integrated Data Processing Framework for Pretraining Foundation
Models [61.66552412677197]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。
本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。
また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文 参考訳(メタデータ) (2023-03-14T10:34:07Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。
近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。
そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文 参考訳(メタデータ) (2021-09-10T14:12:37Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - LayoutParser: A Unified Toolkit for Deep Learning Based Document Image
Analysis [3.4253416336476246]
本稿では,文書画像解析(DIA)研究における深層学習(DL)モデルの利用を合理化するためのオープンソースのライブラリであるレイアウトパーサを紹介する。
layoutparserには、レイアウト検出、文字認識、および他の多くのドキュメント処理タスクのためのDLモデルを適用およびカスタマイズするためのシンプルで直感的なインターフェースのセットが付属しています。
layoutparserは、リアルタイムのユースケースにおける軽量パイプラインと大規模パイプラインの両方に有用であることを示す。
論文 参考訳(メタデータ) (2021-03-29T05:55:08Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。