論文の概要: DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images
- arxiv url: http://arxiv.org/abs/2506.21316v1
- Date: Thu, 26 Jun 2025 14:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.130996
- Title: DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images
- Title(参考訳): DrishtiKon:テキストリッチドキュメンテーション画像のためのマルチグラニュラービジュアルグラウンド
- Authors: Badri Vishal Kasuba, Parag Chaudhuri, Ganesh Ramakrishnan,
- Abstract要約: 複雑な多言語文書のための多言語視覚基盤フレームワークであるDrishtikonについて述べる。
提案手法は, 頑健な多言語OCR, 大規模言語モデル, および応答スパンを正確に局所化するための新しい領域マッチングアルゴリズムを統合する。
我々の研究結果は、実世界のテキスト中心のシナリオにおいて、より堅牢で解釈可能な文書理解システムを実現するための道を開いた。
- 参考スコア(独自算出の注目度): 21.376466879737855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding in text-rich document images is a critical yet underexplored challenge for document intelligence and visual question answering (VQA) systems. We present \drishtikon, a multi-granular visual grounding framework designed to enhance interpretability and trust in VQA for complex, multilingual documents. Our approach integrates robust multi-lingual OCR, large language models, and a novel region matching algorithm to accurately localize answer spans at block, line, word, and point levels. We curate a new benchmark from the CircularsVQA test set, providing fine-grained, human-verified annotations across multiple granularities. Extensive experiments demonstrate that our method achieves state-of-the-art grounding accuracy, with line-level granularity offering the best trade-off between precision and recall. Ablation studies further highlight the benefits of multi-block and multi-line reasoning. Comparative evaluations with leading vision-language models reveal the limitations of current VLMs in precise localization, underscoring the effectiveness of our structured, alignment-based approach. Our findings pave the way for more robust and interpretable document understanding systems in real-world, text-centric scenarios. Code and dataset has been made available at https://github.com/kasuba-badri-vishal/DhrishtiKon.
- Abstract(参考訳): テキストリッチな文書画像の視覚的グラウンド化は、文書インテリジェンスと視覚的質問応答(VQA)システムにとって重要な課題である。
複雑な多言語文書に対するVQAの解釈性と信頼性を高めるために設計された多言語視覚基盤フレームワークである \drishtikon を提案する。
提案手法は, 頑健な多言語OCR, 大規模言語モデル, およびブロック, 行, ワード, ポイントレベルでの応答範囲を正確にローカライズする新しい領域マッチングアルゴリズムを統合する。
我々は、CircularsVQAテストセットから新しいベンチマークをキュレートし、複数の粒度にまたがる詳細な人間認証アノテーションを提供する。
大規模な実験により,提案手法は,精度とリコールの最良のトレードオフを提供するラインレベルの粒度を用いて,最先端の接地精度を実現することが実証された。
アブレーション研究は、マルチブロックおよびマルチライン推論の利点をさらに強調している。
先進視覚言語モデルとの比較により, 高精度な局所化における現在のVLMの限界が明らかとなり, 構造的アライメントに基づくアプローチの有効性が示唆された。
我々の研究結果は、実世界のテキスト中心のシナリオにおいて、より堅牢で解釈可能な文書理解システムを実現するための道を開いた。
コードとデータセットはhttps://github.com/kasuba-badri-vishal/DhrishtiKonで公開されている。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation [5.458935851230595]
テキストおよび視覚的検索・拡張生成(RAG)システムを強化した新しいアプローチであるSCANを提案する。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0%向上し、ビジュアルRAG性能が最大6.4%向上することが示された。
論文 参考訳(メタデータ) (2025-05-20T14:03:24Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models [19.054780489639793]
本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。
提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。
テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
論文 参考訳(メタデータ) (2024-12-11T06:21:33Z) - DOGR: Towards Versatile Visual Document Grounding and Referring [47.66205811791444]
グラウンディングと参照機能は、詳細な理解とフレキシブルなユーザインタラクションを達成するために注目を集めています。
本稿では,2種類の高品質な文書データを生成するDOGR-Engineを提案する。
DOGR-Engineを用いて,3つの文書タイプにまたがる7つのグラウンドと参照タスクをカバーするベンチマークであるDOGR-Benchを構築した。
論文 参考訳(メタデータ) (2024-11-26T05:38:34Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。