論文の概要: AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2508.13606v1
- Date: Tue, 19 Aug 2025 08:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.841217
- Title: AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings
- Title(参考訳): AdaDocVQA: 低リソース環境での長時間の視覚的質問応答のための適応フレームワーク
- Authors: Haoxuan Li, Wei Song, Aofan Liu, Peiwu Qin,
- Abstract要約: Document Visual Question Answering (Document VQA)は、低リソース環境で長いドキュメントを処理する場合、重大な課題に直面します。
本稿では、3つのコアイノベーションを通じてこれらの課題に対処する統一適応フレームワークであるAdaDocVQAについて述べる。
日本語文書VQAベンチマークの実験では,Yes/No質問に対して83.04%の精度で大幅な改善が示された。
- 参考スコア(独自算出の注目度): 8.22650587342049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (Document VQA) faces significant challenges when processing long documents in low-resource environments due to context limitations and insufficient training data. This paper presents AdaDocVQA, a unified adaptive framework addressing these challenges through three core innovations: a hybrid text retrieval architecture for effective document segmentation, an intelligent data augmentation pipeline that automatically generates high-quality reasoning question-answer pairs with multi-level verification, and adaptive ensemble inference with dynamic configuration generation and early stopping mechanisms. Experiments on Japanese document VQA benchmarks demonstrate substantial improvements with 83.04\% accuracy on Yes/No questions, 52.66\% on factual questions, and 44.12\% on numerical questions in JDocQA, and 59\% accuracy on LAVA dataset. Ablation studies confirm meaningful contributions from each component, and our framework establishes new state-of-the-art results for Japanese document VQA while providing a scalable foundation for other low-resource languages and specialized domains. Our code available at: https://github.com/Haoxuanli-Thu/AdaDocVQA.
- Abstract(参考訳): Document Visual Question Answering (Document VQA)は、コンテキスト制限と不十分なトレーニングデータのために、低リソース環境で長いドキュメントを処理する場合、重大な課題に直面します。
本稿では、これらの課題に対処する統合適応フレームワークであるAdaDocVQAについて、効果的な文書セグメンテーションのためのハイブリッドテキスト検索アーキテクチャ、マルチレベル検証による高品質な推論質問応答ペアを自動生成するインテリジェントデータ拡張パイプライン、動的構成生成と早期停止機構による適応アンサンブル推論の3つのコアイノベーションを通して紹介する。
日本語文書VQAベンチマークの実験では、Yes/No質問では83.04\%、事実質問では52.66\%、JDocQAにおける数値質問では44.12\%、LAVAデータセットでは59.%の精度で大幅に改善されている。
アブレーション研究は各コンポーネントから有意義な貢献を認め,本フレームワークは,他の低リソース言語や専門ドメインにスケーラブルな基盤を提供しながら,日本語文書VQAの新たな最先端結果を確立する。
私たちのコードは、https://github.com/Haoxuanli-Thu/AdaDocVQA.comで公開しています。
関連論文リスト
- PDF Retrieval Augmented Question Answering [14.617711623828248]
本稿では,Retrieval Augmented Generation (RAG) フレームワークを用いた質問応答システム(QA)の進歩について述べる。
我々は,複雑なマルチモーダル質問を効果的に解決する総合的なRAGベースのQAシステムの構築を目指している。
論文 参考訳(メタデータ) (2025-06-22T13:14:19Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA [13.000411428297813]
コンテンツにカスケードメタデータと複数ルート検索機構を統合した,高度な多文書質問応答(MDQA)フレームワークであるHiQAを提案する。
また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。