論文の概要: SuperRAG: Beyond RAG with Layout-Aware Graph Modeling
- arxiv url: http://arxiv.org/abs/2503.04790v1
- Date: Fri, 28 Feb 2025 09:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 08:47:09.254779
- Title: SuperRAG: Beyond RAG with Layout-Aware Graph Modeling
- Title(参考訳): SuperRAG: Layout-Aware Graph ModelingによるRAGを超えて
- Authors: Jeff Yang, Duy-Khanh Vu, Minh-Tien Nguyen, Xuan-Quang Nguyen, Linh Nguyen, Hung Le,
- Abstract要約: 本稿では,マルチモーダルRAGのためのレイアウト対応グラフモデリングを提案する。
提案手法は,グラフ構造を用いてマルチモダリティの関係を考慮に入れた。
入力文書の構造は、テキストチャンク、テーブル、フィギュアの接続で保持される。
- 参考スコア(独自算出の注目度): 24.242783763410213
- License:
- Abstract: This paper introduces layout-aware graph modeling for multimodal RAG. Different from traditional RAG methods that mostly deal with flat text chunks, the proposed method takes into account the relationship of multimodalities by using a graph structure. To do that, a graph modeling structure is defined based on document layout parsing. The structure of an input document is retained with the connection of text chunks, tables, and figures. This representation allows the method to handle complex questions that require information from multimodalities. To confirm the efficiency of the graph modeling, a flexible RAG pipeline is developed using robust components. Experimental results on four benchmark test sets confirm the contribution of the layout-aware modeling for performance improvement of the RAG pipeline.
- Abstract(参考訳): 本稿では,マルチモーダルRAGのためのレイアウト対応グラフモデリングを提案する。
フラットテキストチャンクを主に扱う従来のRAG法とは異なり、グラフ構造を用いてマルチモダリティの関係を考慮に入れている。
そのため、文書レイアウト解析に基づいてグラフモデリング構造を定義する。
入力文書の構造は、テキストチャンク、テーブル、フィギュアの接続で保持される。
この表現により、マルチモーダルからの情報を必要とする複雑な問題を扱うことができる。
グラフモデリングの効率性を確認するため、堅牢なコンポーネントを用いて柔軟なRAGパイプラインを開発した。
4つのベンチマークテストセットの実験結果から,RAGパイプラインの性能向上のためのレイアウト認識モデルの有効性が確認された。
関連論文リスト
- Multimodal Graph Constrastive Learning and Prompt for ChartQA [11.828192162922436]
ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。
我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。