論文の概要: ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization
- arxiv url: http://arxiv.org/abs/2511.18192v1
- Date: Sat, 22 Nov 2025 21:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.683661
- Title: ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization
- Title(参考訳): ARIAL: 高精度アンサーローカライゼーションによるVQA文書作成のためのエージェントフレームワーク
- Authors: Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Dheeraj Kulshrestha, Rajiv Ramnath,
- Abstract要約: 本稿では,高精度な回答抽出と信頼性のある空間的接地を実現するために,専門的なツールを編成するフレームワークであるARIALを提案する。
テキスト精度 (ANLS) と空間精度 (空間精度) を用いて, ARIAL を 4 つのベンチマーク (DocVQA, FUNSD, CORD, SROIE) で評価した。
我々の研究は、特殊ツールのエージェント的オーケストレーションが、パフォーマンスと解釈可能性を同時に改善できることを示す。
- 参考スコア(独自算出の注目度): 1.580774794371876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (VQA) requires models to not only extract accurate textual answers but also precisely localize them within document images, a capability critical for interpretability in high-stakes applications. However, existing systems achieve strong textual accuracy while producing unreliable spatial grounding, or sacrifice performance for interpretability. We present ARIAL (Agentic Reasoning for Interpretable Answer Localization), a modular framework that orchestrates specialized tools through an LLM-based planning agent to achieve both precise answer extraction and reliable spatial grounding. ARIAL decomposes Document VQA into structured subtasks: OCR-based text extraction with TrOCR, retrieval-augmented context selection using semantic search, answer generation via a fine-tuned Gemma 3-27B model, and explicit bounding-box localization through text-to-region alignment. This modular architecture produces transparent reasoning traces, enabling tool-level auditability and independent component optimization. We evaluate ARIAL on four benchmarks (DocVQA, FUNSD, CORD, and SROIE) using both textual accuracy (ANLS) and spatial precision (mAP at IoU 0.50 to 0.95). ARIAL achieves state-of-the-art results across all datasets: 88.7 ANLS and 50.1 mAP on DocVQA, 90.0 ANLS and 50.3 mAP on FUNSD, 85.5 ANLS and 60.2 mAP on CORD, and 93.1 ANLS on SROIE, surpassing the previous best method (DLaVA) by +2.8 ANLS and +3.9 mAP on DocVQA. Our work demonstrates how agentic orchestration of specialized tools can simultaneously improve performance and interpretability, providing a pathway toward trustworthy, explainable document AI systems.
- Abstract(参考訳): VQA (Document Visual Question Answering) は、正確なテキスト回答を抽出するだけでなく、それを文書イメージ内に正確にローカライズすることを要求する。
しかし,既存のシステムでは,信頼性の低い空間接地や,解釈性能を犠牲にしながら,強いテキスト精度を実現している。
本稿では,ALAL(Agentic Reasoning for Interpretable Answer Localization)について述べる。ALAL(Agentic Reasoning for Interpretable Answer Localization)は,LLMベースのプランニングエージェントを通じて特殊なツールを編成し,正確な回答抽出と信頼性の高い空間接地を実現するモジュールフレームワークである。
ARIALはDocument VQAを構造化サブタスクに分解する: OCRベースのTrOCRによるテキスト抽出、セマンティック検索による検索拡張コンテキスト選択、微調整されたGemma 3-27Bモデルによる回答生成、テキストと領域のアライメントによる明示的な境界ボックスのローカライゼーション。
このモジュールアーキテクチャは、透過的な推論トレースを生成し、ツールレベルの監査可能性と独立したコンポーネント最適化を可能にする。
テキスト精度 (ANLS) と空間精度 (mAP at IoU 0.50 - 0.95) の2つのベンチマーク (DocVQA, FUNSD, CORD, SROIE) でARIALを評価した。
ARIALは、DocVQA上の88.7 ANLSと50.1 mAP、FUNSD上の90.0 ANLSと50.3 mAP、CORD上の85.5 ANLSと60.2 mAP、SROIE上の93.1 ANLS、DocVQA上の+2.8 ANLSと+3.9 mAPというすべてのデータセットで最先端の結果を達成している。
我々の研究は、特殊ツールのエージェント的オーケストレーションがパフォーマンスと解釈可能性を同時に改善し、信頼できる説明可能なドキュメントAIシステムへの道筋を提供する方法を示している。
関連論文リスト
- Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings [8.22650587342049]
Document Visual Question Answering (Document VQA)は、低リソース環境で長いドキュメントを処理する場合、重大な課題に直面します。
本稿では、3つのコアイノベーションを通じてこれらの課題に対処する統一適応フレームワークであるAdaDocVQAについて述べる。
日本語文書VQAベンチマークの実験では,Yes/No質問に対して83.04%の精度で大幅な改善が示された。
論文 参考訳(メタデータ) (2025-08-19T08:12:45Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Open-Source Agentic Hybrid RAG Framework for Scientific Literature Review [2.092154729589438]
本稿では,ハイブリッドRAGパイプラインを自律エージェント内にカプセル化するエージェントアプローチを提案する。
当社のパイプラインでは,PubMedやarXiv,Google Scholar APIから,バイオロジカルなオープンアクセスデータを収集しています。
Llama-3.3-70B エージェントが GraphRAG (クエリを Cypher for KG に変換する) または VectorRAG (スパースと高密度検索を組み合わせて再ランク付けする) を選択する
論文 参考訳(メタデータ) (2025-07-30T18:54:15Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness [34.170341753045776]
VQA (Document Visual Question Answering) は、テキストの検出、認識、空間的推論の堅牢な統合を要求する。
DLaVAは、マルチモーダル大言語モデル(MLLM)を利用して、ゼロショット応答のローカライゼーションを行う訓練不要パイプラインである。
論文 参考訳(メタデータ) (2024-11-29T06:17:11Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。