Fugu-MT 論文翻訳(概要): DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis

論文の概要: DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis

arxiv url: http://arxiv.org/abs/2201.08295v1
Date: Thu, 20 Jan 2022 17:02:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-21 14:54:46.342681
Title: DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis
Title（参考訳）: DIVA-DAF: 歴史的文書画像解析のためのディープラーニングフレームワーク
Authors: Lars V\"ogtlin, Paul Maergner, Rolf Ingold
Abstract要約: 我々はDIVA-DAFと呼ばれる新しいディープラーニングフレームワークを導入する。本フレームワークを用いたDIVA-HisDBのセマンティックセマンティックセマンティクス実験について述べる。
参考スコア（独自算出の注目度）: 1.1458853556386794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a new deep learning framework called DIVA-DAF. We have developed this framework to support our research on historical document image analysis tasks and to develop techniques to reduce the need for manually-labeled ground truth. We want to apply self-supervised learning techniques and use different kinds of training data. Our new framework aids us in performing rapid prototyping and reproducible experiments. We present a first semantic segmentation experiment on DIVA-HisDB using our framework, achieving state-of-the-art results. The DIVA-DAF framework is open-source, and we encourage other research groups to use it for their experiments.
Abstract（参考訳）: 本稿では,DIVA-DAFと呼ばれる新しいディープラーニングフレームワークを提案する。この枠組みは,歴史的文書画像解析タスクの研究を支援するとともに,手作業による土台真理の必要性を軽減する技術を開発する。私たちは、自己教師付き学習技術を適用し、異なる種類のトレーニングデータを使用したいと思っています。我々の新しいフレームワークは、迅速にプロトタイピングと再現可能な実験を行うのに役立ちます。本フレームワークを用いてDIVA-HisDB上でのセマンティックセマンティックセマンティックなセマンティックなセマンティクス実験を行った。 DIVA-DAFフレームワークはオープンソースであり、他の研究グループが実験に使用することを推奨します。

関連論文リスト

Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。汎用OmniDocBenchに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2026-02-13T14:22:10Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications [22.847266820057985]
本研究は,文書レイアウト分析 (DLA) や文書画像分類 (DIC) など,視覚的にリッチな文書アプリケーションのための知識蒸留について検討する。我々は、より大きなタスクパイプラインに不可欠な文書理解タスクにおいて、よりリーンでパフォーマンスの高いモデルのためのKD実験手法を設計する。教師と学生の知識ギャップに影響を与えるものについて検討し、いくつかの方法(適応プロジェクタを用いたバニラKD、MSE、SimKD)が、教師付き学生の訓練より一貫して優れていることを発見した。
論文参考訳（メタデータ） (2024-06-12T13:55:12Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Data Efficient Training of a U-Net Based Architecture for Structured Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文参考訳（メタデータ） (2023-10-02T07:05:19Z)
Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文参考訳（メタデータ） (2023-03-14T10:34:07Z)
Retrieval as Attention: End-to-end Learning of Retrieval and Reading within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文参考訳（メタデータ） (2022-12-05T04:51:21Z)
Self-Supervised Visual Representation Learning Using Lightweight Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文参考訳（メタデータ） (2021-10-21T14:13:10Z)
LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文参考訳（メタデータ） (2021-09-10T14:12:37Z)
LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis [3.4253416336476246]
本稿では,文書画像解析(DIA)研究における深層学習(DL)モデルの利用を合理化するためのオープンソースのライブラリであるレイアウトパーサを紹介する。 layoutparserには、レイアウト検出、文字認識、および他の多くのドキュメント処理タスクのためのDLモデルを適用およびカスタマイズするためのシンプルで直感的なインターフェースのセットが付属しています。 layoutparserは、リアルタイムのユースケースにおける軽量パイプラインと大規模パイプラインの両方に有用であることを示す。
論文参考訳（メタデータ） (2021-03-29T05:55:08Z)
Comparative Code Structure Analysis using Deep Learning for Performance Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文参考訳（メタデータ） (2021-02-12T16:59:12Z)
KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。 KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文参考訳（メタデータ） (2020-09-04T15:32:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。