論文の概要: Synthetic Document Question Answering in Hungarian
- arxiv url: http://arxiv.org/abs/2505.23008v1
- Date: Thu, 29 May 2025 02:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.628059
- Title: Synthetic Document Question Answering in Hungarian
- Title(参考訳): ハンガリー語における合成文書質問の回答
- Authors: Jonathan Li, Zoltan Csaki, Nidhi Hiremath, Etash Guha, Fenglu Hong, Edward Ma, Urmish Thakker,
- Abstract要約: 本稿では,HuDocVQAとHuDocVQAを用いた文書VQAデータセットを提案する。
データセットの品質を検証するために、これらのデータセットの混合による微調整が、Llama 3.2 11BのHuDocVQAの精度を+7.2%向上することを示す。
- 参考スコア(独自算出の注目度): 7.072348950572827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern VLMs have achieved near-saturation accuracy in English document visual question-answering (VQA). However, this task remains challenging in lower resource languages due to a dearth of suitable training and evaluation data. In this paper we present scalable methods for curating such datasets by focusing on Hungarian, approximately the 17th highest resource language on the internet. Specifically, we present HuDocVQA and HuDocVQA-manual, document VQA datasets that modern VLMs significantly underperform on compared to English DocVQA. HuDocVQA-manual is a small manually curated dataset based on Hungarian documents from Common Crawl, while HuDocVQA is a larger synthetically generated VQA data set from the same source. We apply multiple rounds of quality filtering and deduplication to HuDocVQA in order to match human-level quality in this dataset. We also present HuCCPDF, a dataset of 117k pages from Hungarian Common Crawl PDFs along with their transcriptions, which can be used for training a model for Hungarian OCR. To validate the quality of our datasets, we show how finetuning on a mixture of these datasets can improve accuracy on HuDocVQA for Llama 3.2 11B Instruct by +7.2%. Our datasets and code will be released to the public to foster further research in multilingual DocVQA.
- Abstract(参考訳): 現代のVLMは、英語文書の視覚的質問応答(VQA)において、ほぼ飽和度を達成している。
しかし、この課題は、適切なトレーニングと評価データが不足しているため、低いリソース言語では依然として困難である。
本稿では,インターネット上で17番目に高いリソース言語であるハンガリー語に着目して,そのようなデータセットを計算するためのスケーラブルな手法を提案する。
具体的には、HuDocVQAとHuDocVQA-manualの文書VQAデータセットを提示する。
HuDocVQA-manualはハンガリーのCommon Crawlの文書に基づく手作業による小さなデータセットであり、HuDocVQAは同一ソースから生成されたより大きな合成VQAデータセットである。
我々は,HuDocVQAに品質フィルタリングと重複を複数回適用して,このデータセットの人間レベルの品質に適合させる。
また,ハンガリー語共通crawl PDF から117kページのデータセットである HuCCPDF と,その書き起こしを,ハンガリー語OCR のモデルトレーニングに使用することができる。
データセットの品質を検証するために、これらのデータセットの混合による微調整が、Llama 3.2 11BのHuDocVQAの精度を+7.2%向上することを示す。
私たちのデータセットとコードは、多言語DocVQAのさらなる研究を促進するために、一般に公開されます。
関連論文リスト
- WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval [0.8478469524684645]
WebFAQ(英語: WebFAQ)は、FAQスタイルのスキーマ.orgアノテーションから派生した、オープンドメインの質問応答データセットの大規模なコレクションである。
データ収集は、75言語にまたがる9600万の自然質問回答(QA)ペアで構成されており、うち4700万(49%)が非英語のサンプルである。
WebFAQは、合計1120万QAペアのモノリンガル検索ベンチマーク20の基盤となっている。
論文 参考訳(メタデータ) (2025-02-28T10:46:52Z) - LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts [0.964547614383472]
本稿ではベトナムにおける大規模な文書VQAデータセットであるReceiptVQA(textbfReceipt textbfVisual textbfQuestion textbfAnswering)について述べる。
データセットには textbf9,000+ のレシートイメージと textbf60,000+ の注釈付き質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-02-26T15:09:28Z) - DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection [81.9128248739811]
新たに抽出したCommon Crawlデータを用いて構築された大規模多言語コーパスであるDCAD-2000を導入する。
DCAD-2000には2,282言語、46.72TBのデータ、833億のドキュメントがあり、155のハイソース言語と159のスクリプトがある。
我々はFineTaskベンチマークでDCAD-2000の品質を評価し、多言語データセットの品質とタスク性能を大幅に改善した。
論文 参考訳(メタデータ) (2025-02-17T08:28:29Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian [0.0]
我々は、SQuAD-srという名前の87K以上のサンプルからなるセルビア最大のQAデータセットを作成します。
セルビア語でスクリプトの双対性を認めるために、我々はデータセットのキリル文字版とラテン文字版の両方を生成した。
最高の結果は、私たちのラテンSQuAD-srデータセット上でBERTi'cモデルを微調整し、73.91%のExact Matchと82.97%のF1スコアを得たことである。
論文 参考訳(メタデータ) (2024-04-12T17:27:54Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。