論文の概要: Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD
- arxiv url: http://arxiv.org/abs/2406.17437v1
- Date: Tue, 25 Jun 2024 10:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:51:57.494803
- Title: Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD
- Title(参考訳): 手書き文書に対する質問応答の促進:HW-SQuADのための現状認識モデル
- Authors: Aniket Pal, Ajoy Mondal, C. V. Jawahar,
- Abstract要約: 本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。
本モデルでは,モデルレベルでのトランスフォーマーに基づく文書検索とアンサンブル手法を導入し,エクサクマッチスコアを82.02%,92.55%とした。
コードとトレーニングされたモデルは、この重要な自然言語領域における将来の研究を促進するために公開されます。
- 参考スコア(独自算出の注目度): 30.559280110711143
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Question-answering handwritten documents is a challenging task with numerous real-world applications. This paper proposes a novel recognition-based approach that improves upon the previous state-of-the-art on the HW-SQuAD and BenthamQA datasets. Our model incorporates transformer-based document retrieval and ensemble methods at the model level, achieving an Exact Match score of 82.02% and 92.55% in HW-SQuAD and BenthamQA datasets, respectively, surpassing the previous best recognition-based approach by 10.89% and 26%. We also enhance the document retrieval component, boosting the top-5 retrieval accuracy from 90% to 95.30%. Our results demonstrate the significance of our proposed approach in advancing question answering on handwritten documents. The code and trained models will be publicly available to facilitate future research in this critical area of natural language.
- Abstract(参考訳): 質問に答える手書き文書は多くの現実世界のアプリケーションにおいて難しい課題である。
本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。
モデルレベルでの変換器ベースの文書検索とアンサンブル手法を取り入れ,HW-SQuADデータセットとBenthamQAデータセットにおいて,それぞれ82.02%,92.55%のExact Matchスコアを達成し,従来の最高の認識ベースアプローチを10.89%,26%上回った。
また,文書検索の精度を90%から95.30%に向上させた。
本研究は,手書き文書における質問応答の進行における提案手法の重要性を実証するものである。
コードとトレーニングされたモデルは、この重要な自然言語領域における将来の研究を促進するために公開されます。
関連論文リスト
- DocXplain: A Novel Model-Agnostic Explainability Method for Document Image Classification [5.247930659596986]
本稿では,高解釈性特徴属性マップの生成に特化して設計された新しいモデルに依存しない説明可能性手法であるDocXplainを紹介する。
4つの異なる評価指標を用いて,文書画像分類の文脈において提案手法を広範囲に評価した。
著者の知識を最大限に活用するために、本研究は、特に文書画像に適した、モデルに依存しない属性に基づく説明可能性法を初めて提示する。
論文 参考訳(メタデータ) (2024-07-04T10:59:15Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Massive Documents
QA [14.20201554222619]
HiQAは、カスケードメタデータをコンテンツとマルチルート検索機構に統合する。
MDQAを評価・研究するためのベンチマークMasQAをリリースする。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z) - ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models [69.86170930261841]
ACIDを導入し、それぞれのドキュメントのIDは、大きな言語モデルによって生成される抽象的なキーフレーズから構成される。
我々はACIDの使用がトップ10とトップ20の精度を15.6%、14.4%改善することを示した。
本研究は,LMを用いた生成検索における人間可読な自然言語IDの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Recognition-free Question Answering on Handwritten Document Collections [3.0969191504482247]
手書き文書に対する無認識質問回答手法を提案する。
我々のアプローチは、挑戦的なBenthamQAとHW-SQuADデータセットにおいて、最先端の認識自由モデルよりも優れています。
論文 参考訳(メタデータ) (2022-02-12T14:47:44Z) - Variational Learning for Unsupervised Knowledge Grounded Dialogs [6.761874595503588]
知識基底ダイアログの最近の手法は,外部文書からの情報を取り入れて応答を生成する。
我々は上記の手法に対する変分的アプローチを開発し、代わりにエビデンスローバウンド(ELBO)を最大化する。
我々の知識を最大限に活用するために、我々は、オープンスケールの教師なし知識ベースダイアログシステムに変分訓練を適用した最初の人物である。
論文 参考訳(メタデータ) (2021-11-23T13:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。