論文の概要: Multi-view Content-aware Indexing for Long Document Retrieval
- arxiv url: http://arxiv.org/abs/2404.15103v1
- Date: Tue, 23 Apr 2024 14:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:32:19.112518
- Title: Multi-view Content-aware Indexing for Long Document Retrieval
- Title(参考訳): 長期文書検索のための多視点コンテンツ認識インデックス作成
- Authors: Kuicai Dong, Derrick Goh Xin Deik, Yi Quan Lee, Hao Zhang, Xiangyang Li, Cong Zhang, Yong Liu,
- Abstract要約: Long Document Question answering (DocQA) は、10kワード以上の長いドキュメントからの質問に答えることを目的としている。
より効果的な長いDocQAのためのMulti-view Content-Aware Indexing (MC-indexing)を提案する。
MCインデクシングによりリコール率は42.8%、30.0%、23.9%、トップk=1.5、3、5、10で16.3%増加した。
- 参考スコア(独自算出の注目度): 19.74258792456242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long document question answering (DocQA) aims to answer questions from long documents over 10k words. They usually contain content structures such as sections, sub-sections, and paragraph demarcations. However, the indexing methods of long documents remain under-explored, while existing systems generally employ fixed-length chunking. As they do not consider content structures, the resultant chunks can exclude vital information or include irrelevant content. Motivated by this, we propose the Multi-view Content-aware indexing (MC-indexing) for more effective long DocQA via (i) segment structured document into content chunks, and (ii) represent each content chunk in raw-text, keywords, and summary views. We highlight that MC-indexing requires neither training nor fine-tuning. Having plug-and-play capability, it can be seamlessly integrated with any retrievers to boost their performance. Besides, we propose a long DocQA dataset that includes not only question-answer pair, but also document structure and answer scope. When compared to state-of-art chunking schemes, MC-indexing has significantly increased the recall by 42.8%, 30.0%, 23.9%, and 16.3% via top k= 1.5, 3, 5, and 10 respectively. These improved scores are the average of 8 widely used retrievers (2 sparse and 6 dense) via extensive experiments.
- Abstract(参考訳): Long Document Question answering (DocQA) は、10kワード以上の長いドキュメントからの質問に答えることを目的としている。
これらは通常、セクション、サブセクション、および段落区切りなどのコンテンツ構造を含む。
しかし、長い文書の索引付け手法は未探索のままであり、既存のシステムは一般に固定長のチャンクを用いる。
コンテンツ構造を考慮しないため、結果のチャンクはバイタル情報を除外したり、無関係なコンテンツを含むことができる。
そこで我々は,より効果的な長期DocQAのためのMulti-view Content-Aware Indexing (MC-indexing)を提案する。
i) 構造化文書をコンテンツチャンクに分割し、
(ii)各コンテンツチャンクを、生のテキスト、キーワード、要約ビューで表現する。
MCインデクシングはトレーニングも微調整も必要としない。
プラグアンドプレイ機能があるので、どのレトリバーともシームレスに統合してパフォーマンスを向上できる。
さらに,質問応答対だけでなく,文書構造や回答範囲も含む長いDocQAデータセットを提案する。
最先端のチャンキング方式と比較して、MCインデクシングは、それぞれトップk=1.5、3、5、10で42.8%、30.0%、23.9%、および16.3%のリコールを著しく増加させた。
これらの改良されたスコアは、広範囲な実験を通じて広く使われている8つのレトリバー(2つのスパース、6つの密度)の平均である。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Multimodal Tree Decoder for Table of Contents Extraction in Document
Images [32.46909366312659]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。
まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。
本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-12-06T11:38:31Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。