Fugu-MT 論文翻訳(概要): SuperRAG: Beyond RAG with Layout-Aware Graph Modeling

論文の概要: SuperRAG: Beyond RAG with Layout-Aware Graph Modeling

arxiv url: http://arxiv.org/abs/2503.04790v1
Date: Fri, 28 Feb 2025 09:05:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.658339
Title: SuperRAG: Beyond RAG with Layout-Aware Graph Modeling
Title（参考訳）: SuperRAG: Layout-Aware Graph ModelingによるRAGを超えて
Authors: Jeff Yang, Duy-Khanh Vu, Minh-Tien Nguyen, Xuan-Quang Nguyen, Linh Nguyen, Hung Le,
Abstract要約: 本稿では,マルチモーダルRAGのためのレイアウト対応グラフモデリングを提案する。提案手法は,グラフ構造を用いてマルチモダリティの関係を考慮に入れた。入力文書の構造は、テキストチャンク、テーブル、フィギュアの接続で保持される。
参考スコア（独自算出の注目度）: 24.242783763410213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces layout-aware graph modeling for multimodal RAG. Different from traditional RAG methods that mostly deal with flat text chunks, the proposed method takes into account the relationship of multimodalities by using a graph structure. To do that, a graph modeling structure is defined based on document layout parsing. The structure of an input document is retained with the connection of text chunks, tables, and figures. This representation allows the method to handle complex questions that require information from multimodalities. To confirm the efficiency of the graph modeling, a flexible RAG pipeline is developed using robust components. Experimental results on four benchmark test sets confirm the contribution of the layout-aware modeling for performance improvement of the RAG pipeline.
Abstract（参考訳）: 本稿では,マルチモーダルRAGのためのレイアウト対応グラフモデリングを提案する。フラットテキストチャンクを主に扱う従来のRAG法とは異なり、グラフ構造を用いてマルチモダリティの関係を考慮に入れている。そのため、文書レイアウト解析に基づいてグラフモデリング構造を定義する。入力文書の構造は、テキストチャンク、テーブル、フィギュアの接続で保持される。この表現により、マルチモーダルからの情報を必要とする複雑な問題を扱うことができる。グラフモデリングの効率性を確認するため、堅牢なコンポーネントを用いて柔軟なRAGパイプラインを開発した。 4つのベンチマークテストセットの実験結果から,RAGパイプラインの性能向上のためのレイアウト認識モデルの有効性が確認された。

関連論文リスト

A Graph-based Approach for Multi-Modal Question Answering from Flowcharts in Telecom Documents [0.619840955350879]
技術的文書からの質問回答は、フローチャートやフロー図のような数字に答えが存在する質問を含むことが多い。我々は,VLM(Visual Large Language Models)から得られたフローチャートのグラフ表現を活用し,それをテキストベースRAGシステムに組み込んで,通信領域におけるQAの画像検索を可能にすることを示す。
論文参考訳（メタデータ） (2025-07-25T07:36:13Z)
RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。 RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文参考訳（メタデータ） (2025-03-25T03:21:48Z)
Multimodal Graph Constrastive Learning and Prompt for ChartQA [11.828192162922436]
ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
論文参考訳（メタデータ） (2025-01-08T06:27:07Z)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳（メタデータ） (2024-12-14T06:24:55Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文参考訳（メタデータ） (2023-05-03T07:30:32Z)
BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2021-05-25T16:20:48Z)
VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文参考訳（メタデータ） (2021-05-13T12:20:30Z)
Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文参考訳（メタデータ） (2020-05-20T13:39:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。