論文の概要: Multi-view Content-aware Indexing for Long Document Retrieval
- arxiv url: http://arxiv.org/abs/2404.15103v1
- Date: Tue, 23 Apr 2024 14:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:32:19.112518
- Title: Multi-view Content-aware Indexing for Long Document Retrieval
- Title(参考訳): 長期文書検索のための多視点コンテンツ認識インデックス作成
- Authors: Kuicai Dong, Derrick Goh Xin Deik, Yi Quan Lee, Hao Zhang, Xiangyang Li, Cong Zhang, Yong Liu,
- Abstract要約: Long Document Question answering (DocQA) は、10kワード以上の長いドキュメントからの質問に答えることを目的としている。
より効果的な長いDocQAのためのMulti-view Content-Aware Indexing (MC-indexing)を提案する。
MCインデクシングによりリコール率は42.8%、30.0%、23.9%、トップk=1.5、3、5、10で16.3%増加した。
- 参考スコア(独自算出の注目度): 19.74258792456242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long document question answering (DocQA) aims to answer questions from long documents over 10k words. They usually contain content structures such as sections, sub-sections, and paragraph demarcations. However, the indexing methods of long documents remain under-explored, while existing systems generally employ fixed-length chunking. As they do not consider content structures, the resultant chunks can exclude vital information or include irrelevant content. Motivated by this, we propose the Multi-view Content-aware indexing (MC-indexing) for more effective long DocQA via (i) segment structured document into content chunks, and (ii) represent each content chunk in raw-text, keywords, and summary views. We highlight that MC-indexing requires neither training nor fine-tuning. Having plug-and-play capability, it can be seamlessly integrated with any retrievers to boost their performance. Besides, we propose a long DocQA dataset that includes not only question-answer pair, but also document structure and answer scope. When compared to state-of-art chunking schemes, MC-indexing has significantly increased the recall by 42.8%, 30.0%, 23.9%, and 16.3% via top k= 1.5, 3, 5, and 10 respectively. These improved scores are the average of 8 widely used retrievers (2 sparse and 6 dense) via extensive experiments.
- Abstract(参考訳): Long Document Question answering (DocQA) は、10kワード以上の長いドキュメントからの質問に答えることを目的としている。
これらは通常、セクション、サブセクション、および段落区切りなどのコンテンツ構造を含む。
しかし、長い文書の索引付け手法は未探索のままであり、既存のシステムは一般に固定長のチャンクを用いる。
コンテンツ構造を考慮しないため、結果のチャンクはバイタル情報を除外したり、無関係なコンテンツを含むことができる。
そこで我々は,より効果的な長期DocQAのためのMulti-view Content-Aware Indexing (MC-indexing)を提案する。
i) 構造化文書をコンテンツチャンクに分割し、
(ii)各コンテンツチャンクを、生のテキスト、キーワード、要約ビューで表現する。
MCインデクシングはトレーニングも微調整も必要としない。
プラグアンドプレイ機能があるので、どのレトリバーともシームレスに統合してパフォーマンスを向上できる。
さらに,質問応答対だけでなく,文書構造や回答範囲も含む長いDocQAデータセットを提案する。
最先端のチャンキング方式と比較して、MCインデクシングは、それぞれトップk=1.5、3、5、10で42.8%、30.0%、23.9%、および16.3%のリコールを著しく増加させた。
これらの改良されたスコアは、広範囲な実験を通じて広く使われている8つのレトリバー(2つのスパース、6つの密度)の平均である。
関連論文リスト
- CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document
Visual Question Answering [3.8065968624597324]
Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。
既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやり取りを容易にすることはない。
本稿では,CFRet-DVQAについて紹介する。
論文 参考訳(メタデータ) (2024-02-26T01:17:50Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text
Generation with Large Language Models [74.73330587411532]
大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。
現在のベンチマークでは、情報的かつ包括的なコンテンツを生成するLLMの能力は十分に評価されていない。
長文テキスト生成を評価するフレームワークであるtextsc ProxyQA を紹介する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Multimodal Tree Decoder for Table of Contents Extraction in Document
Images [32.46909366312659]
テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。
まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。
本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-12-06T11:38:31Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。