論文の概要: DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images
- arxiv url: http://arxiv.org/abs/2506.21316v1
- Date: Thu, 26 Jun 2025 14:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.130996
- Title: DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images
- Title(参考訳): DrishtiKon:テキストリッチドキュメンテーション画像のためのマルチグラニュラービジュアルグラウンド
- Authors: Badri Vishal Kasuba, Parag Chaudhuri, Ganesh Ramakrishnan,
- Abstract要約: 複雑な多言語文書のための多言語視覚基盤フレームワークであるDrishtikonについて述べる。
提案手法は, 頑健な多言語OCR, 大規模言語モデル, および応答スパンを正確に局所化するための新しい領域マッチングアルゴリズムを統合する。
我々の研究結果は、実世界のテキスト中心のシナリオにおいて、より堅牢で解釈可能な文書理解システムを実現するための道を開いた。
- 参考スコア(独自算出の注目度): 21.376466879737855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding in text-rich document images is a critical yet underexplored challenge for document intelligence and visual question answering (VQA) systems. We present \drishtikon, a multi-granular visual grounding framework designed to enhance interpretability and trust in VQA for complex, multilingual documents. Our approach integrates robust multi-lingual OCR, large language models, and a novel region matching algorithm to accurately localize answer spans at block, line, word, and point levels. We curate a new benchmark from the CircularsVQA test set, providing fine-grained, human-verified annotations across multiple granularities. Extensive experiments demonstrate that our method achieves state-of-the-art grounding accuracy, with line-level granularity offering the best trade-off between precision and recall. Ablation studies further highlight the benefits of multi-block and multi-line reasoning. Comparative evaluations with leading vision-language models reveal the limitations of current VLMs in precise localization, underscoring the effectiveness of our structured, alignment-based approach. Our findings pave the way for more robust and interpretable document understanding systems in real-world, text-centric scenarios. Code and dataset has been made available at https://github.com/kasuba-badri-vishal/DhrishtiKon.
- Abstract(参考訳): テキストリッチな文書画像の視覚的グラウンド化は、文書インテリジェンスと視覚的質問応答(VQA)システムにとって重要な課題である。
複雑な多言語文書に対するVQAの解釈性と信頼性を高めるために設計された多言語視覚基盤フレームワークである \drishtikon を提案する。
提案手法は, 頑健な多言語OCR, 大規模言語モデル, およびブロック, 行, ワード, ポイントレベルでの応答範囲を正確にローカライズする新しい領域マッチングアルゴリズムを統合する。
我々は、CircularsVQAテストセットから新しいベンチマークをキュレートし、複数の粒度にまたがる詳細な人間認証アノテーションを提供する。
大規模な実験により,提案手法は,精度とリコールの最良のトレードオフを提供するラインレベルの粒度を用いて,最先端の接地精度を実現することが実証された。
アブレーション研究は、マルチブロックおよびマルチライン推論の利点をさらに強調している。
先進視覚言語モデルとの比較により, 高精度な局所化における現在のVLMの限界が明らかとなり, 構造的アライメントに基づくアプローチの有効性が示唆された。
我々の研究結果は、実世界のテキスト中心のシナリオにおいて、より堅牢で解釈可能な文書理解システムを実現するための道を開いた。
コードとデータセットはhttps://github.com/kasuba-badri-vishal/DhrishtiKonで公開されている。
関連論文リスト
- SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation [5.458935851230595]
テキストおよび視覚的検索・拡張生成(RAG)システムを強化した新しいアプローチであるSCANを提案する。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0%向上し、ビジュアルRAG性能が最大6.4%向上することが示された。
論文 参考訳(メタデータ) (2025-05-20T14:03:24Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models [19.054780489639793]
本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。
提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。
テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
論文 参考訳(メタデータ) (2024-12-11T06:21:33Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。