論文の概要: AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2508.13606v1
- Date: Tue, 19 Aug 2025 08:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.841217
- Title: AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings
- Title(参考訳): AdaDocVQA: 低リソース環境での長時間の視覚的質問応答のための適応フレームワーク
- Authors: Haoxuan Li, Wei Song, Aofan Liu, Peiwu Qin,
- Abstract要約: Document Visual Question Answering (Document VQA)は、低リソース環境で長いドキュメントを処理する場合、重大な課題に直面します。
本稿では、3つのコアイノベーションを通じてこれらの課題に対処する統一適応フレームワークであるAdaDocVQAについて述べる。
日本語文書VQAベンチマークの実験では,Yes/No質問に対して83.04%の精度で大幅な改善が示された。
- 参考スコア(独自算出の注目度): 8.22650587342049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (Document VQA) faces significant challenges when processing long documents in low-resource environments due to context limitations and insufficient training data. This paper presents AdaDocVQA, a unified adaptive framework addressing these challenges through three core innovations: a hybrid text retrieval architecture for effective document segmentation, an intelligent data augmentation pipeline that automatically generates high-quality reasoning question-answer pairs with multi-level verification, and adaptive ensemble inference with dynamic configuration generation and early stopping mechanisms. Experiments on Japanese document VQA benchmarks demonstrate substantial improvements with 83.04\% accuracy on Yes/No questions, 52.66\% on factual questions, and 44.12\% on numerical questions in JDocQA, and 59\% accuracy on LAVA dataset. Ablation studies confirm meaningful contributions from each component, and our framework establishes new state-of-the-art results for Japanese document VQA while providing a scalable foundation for other low-resource languages and specialized domains. Our code available at: https://github.com/Haoxuanli-Thu/AdaDocVQA.
- Abstract(参考訳): Document Visual Question Answering (Document VQA)は、コンテキスト制限と不十分なトレーニングデータのために、低リソース環境で長いドキュメントを処理する場合、重大な課題に直面します。
本稿では、これらの課題に対処する統合適応フレームワークであるAdaDocVQAについて、効果的な文書セグメンテーションのためのハイブリッドテキスト検索アーキテクチャ、マルチレベル検証による高品質な推論質問応答ペアを自動生成するインテリジェントデータ拡張パイプライン、動的構成生成と早期停止機構による適応アンサンブル推論の3つのコアイノベーションを通して紹介する。
日本語文書VQAベンチマークの実験では、Yes/No質問では83.04\%、事実質問では52.66\%、JDocQAにおける数値質問では44.12\%、LAVAデータセットでは59.%の精度で大幅に改善されている。
アブレーション研究は各コンポーネントから有意義な貢献を認め,本フレームワークは,他の低リソース言語や専門ドメインにスケーラブルな基盤を提供しながら,日本語文書VQAの新たな最先端結果を確立する。
私たちのコードは、https://github.com/Haoxuanli-Thu/AdaDocVQA.comで公開しています。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - ChiMDQA: Towards Comprehensive Chinese Document QA with Fine-grained Evaluation [12.784082281917003]
ChiMDQAは、6つの異なる分野から長い形式の文書を包含している。
このデータセットは、多様性と高品質の両方を保証し、文書理解、知識抽出、インテリジェントQAシステムなど、さまざまなNLPタスクに適用できる。
論文 参考訳(メタデータ) (2025-11-05T17:13:14Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - PDF Retrieval Augmented Question Answering [14.617711623828248]
本稿では,Retrieval Augmented Generation (RAG) フレームワークを用いた質問応答システム(QA)の進歩について述べる。
我々は,複雑なマルチモーダル質問を効果的に解決する総合的なRAGベースのQAシステムの構築を目指している。
論文 参考訳(メタデータ) (2025-06-22T13:14:19Z) - Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering [3.6799953119508735]
本稿では,意味表現を拡張化するためのメカニズムを導入することで,マルチモーダルな教科書質問応答手法を提案する。
我々のモデルであるJETRTQA(Joint Embedding Training With Ranking Supervision for Textbook Question Answering)は、検索ジェネレータアーキテクチャ上に構築されたマルチモーダル学習フレームワークである。
本手法をCK12-QAデータセット上で評価し,情報化文書と無関係文書の識別を著しく改善することを示す。
論文 参考訳(メタデータ) (2025-05-17T13:23:54Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA [13.000411428297813]
コンテンツにカスケードメタデータと複数ルート検索機構を統合した,高度な多文書質問応答(MDQA)フレームワークであるHiQAを提案する。
また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。