論文の概要: $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA
- arxiv url: http://arxiv.org/abs/2601.22055v1
- Date: Thu, 29 Jan 2026 17:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.064326
- Title: $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA
- Title(参考訳): $G^2$-Reader: マルチモーダルドキュメントQAのためのデュアル進化グラフ
- Authors: Yaxin Du, Junru Song, Yifan Zhou, Cheng Wang, Jiahao Gu, Zimeng Chen, Menglan Chen, Wen Yao, Yang Yang, Ying Wen, Siheng Chen,
- Abstract要約: G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
- 参考スコア(独自算出の注目度): 53.491241153213565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation is a practical paradigm for question answering over long documents, but it remains brittle for multimodal reading where text, tables, and figures are interleaved across many pages. First, flat chunking breaks document-native structure and cross-modal alignment, yielding semantic fragments that are hard to interpret in isolation. Second, even iterative retrieval can fail in long contexts by looping on partial evidence or drifting into irrelevant sections as noise accumulates, since each step is guided only by the current snippet without a persistent global search state. We introduce $G^2$-Reader, a dual-graph system, to address both issues. It evolves a Content Graph to preserve document-native structure and cross-modal semantics, and maintains a Planning Graph, an agentic directed acyclic graph of sub-questions, to track intermediate findings and guide stepwise navigation for evidence completion. On VisDoMBench across five multimodal domains, $G^2$-Reader with Qwen3-VL-32B-Instruct reaches 66.21\% average accuracy, outperforming strong baselines and a standalone GPT-5 (53.08\%).
- Abstract(参考訳): 検索拡張世代は、長い文書に答えるための実用的なパラダイムであるが、テキスト、表、図形が多くのページでインターリーブされるマルチモーダル読解には脆弱なままである。
まず、フラットなチャンキングはドキュメントネイティブ構造とクロスモーダルなアライメントを壊し、分離して解釈するのが難しいセマンティックなフラグメントを生成します。
第二に、繰り返し検索でさえ、ある部分的な証拠をループしたり、ノイズが蓄積するにつれて無関係な部分に漂流させることで、長いコンテキストで失敗することがある。
両問題に対処するために,デュアルグラフシステムである$G^2$-Readerを導入する。
ドキュメントネイティブの構造とクロスモーダルなセマンティクスを保持するためにContent Graphを進化させ、サブクエストのエージェント指向の非循環グラフであるプランニンググラフを維持し、中間的な発見を追跡し、証拠の完成のために段階的にナビゲーションする。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G^2$-Readerが平均精度66.21\%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08\%)を上回っている。
関連論文リスト
- N2N-GQA: Noise-to-Narrative for Graph-Based Table-Text Question Answering Using LLMs [0.0]
ハイブリッドテーブルテキストデータに対するマルチホップ質問応答には,大規模コーパスからの複数のエビデンス部分の検索と推論が必要である。
Standard Retrieval-Augmented Generation (RAG) パイプラインは文書をフラットなランクリストとして処理し、検索ノイズがあいまいな推論連鎖を引き起こす。
N2N-GQAは、ノイズの多い検索出力から動的エビデンスグラフを構成する、オープンドメインハイブリッドテーブルテキストQAのための最初のゼロショットフレームワークである。
論文 参考訳(メタデータ) (2026-01-10T15:55:15Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Benchmarking Graph Neural Networks for Document Layout Analysis in Public Affairs [12.745520645025808]
我々は,デジタルネイティブ文書からテキストブロックの詳細なレイアウト分類を行うために,グラフニューラルネットワーク(GNN)アーキテクチャをベンチマークした。
両ブランチ構成のk-closest-neighborグラフ上でグラフSAGEを動作させることで,クラスごとの最大精度と全体的な精度が得られることを示す。
論文 参考訳(メタデータ) (2025-05-12T10:59:30Z) - SgSum: Transforming Multi-document Summarization into Sub-graph
Selection [27.40759123902261]
既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。
サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。
我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
論文 参考訳(メタデータ) (2021-10-25T05:12:10Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。