論文の概要: Passage Segmentation of Documents for Extractive Question Answering
- arxiv url: http://arxiv.org/abs/2501.09940v1
- Date: Fri, 17 Jan 2025 03:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:14.337844
- Title: Passage Segmentation of Documents for Extractive Question Answering
- Title(参考訳): 抽出質問応答のための文書の通過分割
- Authors: Zuhong Liu, Charles-Elie Simon, Fabien Caspani,
- Abstract要約: 本研究では,高密度流路検索と終端RAGパイプラインの性能向上において,チャンキングが重要な役割を担っていることを強調する。
長い文書をコンテキスト化して自己完結した様々な粒度のチャンクに分割する新しいフレームワークであるLogits-Guided Multi-Granular Chunker (LGMGC)を紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has proven effective in open-domain question answering. However, the chunking process, which is essential to this pipeline, often receives insufficient attention relative to retrieval and synthesis components. This study emphasizes the critical role of chunking in improving the performance of both dense passage retrieval and the end-to-end RAG pipeline. We then introduce the Logits-Guided Multi-Granular Chunker (LGMGC), a novel framework that splits long documents into contextualized, self-contained chunks of varied granularity. Our experimental results, evaluated on two benchmark datasets, demonstrate that LGMGC not only improves the retrieval step but also outperforms existing chunking methods when integrated into a RAG pipeline.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、オープンドメインの質問応答に有効であることが証明されている。
しかし、このパイプラインに不可欠なチャンキングプロセスは、しばしば、検索や合成コンポーネントに対して十分な注意を払わない。
本研究では,高密度流路検索と終端RAGパイプラインの性能向上において,チャンキングが重要な役割を担っていることを強調する。
次に、長い文書をコンテキスト化された、自己完結した様々な粒度のチャンクに分割する新しいフレームワークであるLogits-Guided Multi-Granular Chunker(LGMGC)を紹介する。
2つのベンチマークデータセットで評価した実験結果から,LGMGCは検索ステップの改善だけでなく,RAGパイプラインに統合された場合の既存のチャンキング手法よりも優れていることが示された。
関連論文リスト
- Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - Is Semantic Chunking Worth the Computational Cost? [0.0]
本研究は,3つの共通検索タスクを用いた意味的チャンキングの有効性を体系的に評価する。
その結果,セマンティックチャンキングに伴う計算コストは,一貫した性能向上によって正当化されないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T21:53:48Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Enhanced document retrieval with topic embeddings [0.0]
文書検索システムは、検索強化世代(RAG)の出現にともなって、再活性化された関心を経験してきた。
RAGアーキテクチャはLLMのみのアプリケーションよりも幻覚率が低い。
我々は文書の話題情報を考慮した新しいベクトル化手法を考案した。
論文 参考訳(メタデータ) (2024-08-19T22:01:45Z) - Don't Forget to Connect! Improving RAG with Graph-based Reranking [26.433218248189867]
本稿では,グラフニューラルネットワーク(GNN)に基づくリランカであるG-RAGについて紹介する。
提案手法は,文書と意味情報の相互接続(抽象表現平均グラフ)を組み合わせ,RAGの文脈インフォームドローダを提供する。
G-RAGは計算フットプリントを小さくしながら最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2024-05-28T17:56:46Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs [80.74263278847063]
検索されたパスと大きな言語モデル(LLM)の統合は、オープンドメインの質問応答の改善に大きく貢献している。
本稿では,検索したパスをLLMと組み合わせて回答生成を向上させる方法について検討する。
論文 参考訳(メタデータ) (2023-08-24T05:26:54Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain
Question Answering [68.00631278030627]
検索した通路間の構造的関係を知識グラフで利用することにより,ノイズのある通路をフィルタする新しい手法KG-FiDを提案する。
我々は,KG-FiDが解答一致スコアの最大1.5%向上し,計算コストの40%程度でFiDに匹敵する性能が得られることを示した。
論文 参考訳(メタデータ) (2021-10-08T18:39:59Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。