Fugu-MT 論文翻訳(概要): Passage Segmentation of Documents for Extractive Question Answering

論文の概要: Passage Segmentation of Documents for Extractive Question Answering

arxiv url: http://arxiv.org/abs/2501.09940v1
Date: Fri, 17 Jan 2025 03:42:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.652521
Title: Passage Segmentation of Documents for Extractive Question Answering
Title（参考訳）: 抽出質問応答のための文書の通過分割
Authors: Zuhong Liu, Charles-Elie Simon, Fabien Caspani,
Abstract要約: 本研究では,高密度流路検索と終端RAGパイプラインの性能向上において,チャンキングが重要な役割を担っていることを強調する。長い文書をコンテキスト化して自己完結した様々な粒度のチャンクに分割する新しいフレームワークであるLogits-Guided Multi-Granular Chunker (LGMGC)を紹介した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) has proven effective in open-domain question answering. However, the chunking process, which is essential to this pipeline, often receives insufficient attention relative to retrieval and synthesis components. This study emphasizes the critical role of chunking in improving the performance of both dense passage retrieval and the end-to-end RAG pipeline. We then introduce the Logits-Guided Multi-Granular Chunker (LGMGC), a novel framework that splits long documents into contextualized, self-contained chunks of varied granularity. Our experimental results, evaluated on two benchmark datasets, demonstrate that LGMGC not only improves the retrieval step but also outperforms existing chunking methods when integrated into a RAG pipeline.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、オープンドメインの質問応答に有効であることが証明されている。しかし、このパイプラインに不可欠なチャンキングプロセスは、しばしば、検索や合成コンポーネントに対して十分な注意を払わない。本研究では,高密度流路検索と終端RAGパイプラインの性能向上において,チャンキングが重要な役割を担っていることを強調する。次に、長い文書をコンテキスト化された、自己完結した様々な粒度のチャンクに分割する新しいフレームワークであるLogits-Guided Multi-Granular Chunker(LGMGC)を紹介する。 2つのベンチマークデータセットで評価した実験結果から,LGMGCは検索ステップの改善だけでなく,RAGパイプラインに統合された場合の既存のチャンキング手法よりも優れていることが示された。

関連論文リスト

On the Reproducibility of Learned Sparse Retrieval Adaptations for Long Documents [2.186901738997927]
長い文書にLearned Sparse Retrieval(LSR)を適用するメカニズムを再現し検討する。実験の結果,文書検索性能は第1セグメントが支配的であり,各セグメントの重要性が確認された。提案手法であるExactSDMとSoftSDMを文書の長さによって再評価した。
論文参考訳（メタデータ） (2025-03-31T08:19:31Z)
Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文参考訳（メタデータ） (2025-02-18T02:49:40Z)
Knowledge Graph-Guided Retrieval Augmented Generation [34.83235788116369]
本稿では,知識グラフを用いた検索検索生成フレームワークを提案する。 KG$2$RAGは、チャンク間の事実レベルの関係を提供し、得られた結果の多様性と一貫性を改善する。
論文参考訳（メタデータ） (2025-02-08T02:14:31Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文参考訳（メタデータ） (2024-11-11T22:06:51Z)
Is Semantic Chunking Worth the Computational Cost? [0.0]
本研究は,3つの共通検索タスクを用いた意味的チャンキングの有効性を体系的に評価する。その結果,セマンティックチャンキングに伴う計算コストは,一貫した性能向上によって正当化されないことがわかった。
論文参考訳（メタデータ） (2024-10-16T21:53:48Z)
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文参考訳（メタデータ） (2024-10-14T15:04:18Z)
MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。 MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
QPaug: Question and Passage Augmentation for Open-Domain Question Answering of LLMs [5.09189220106765]
オープンドメイン問合せタスクのための大規模言語モデル(LLM)を介してQPaug(Q and passage augmentation)と呼ばれるシンプルで効率的な手法を提案する。実験の結果,QPaugは従来の最先端技術よりも優れており,既存のRAG法よりも大きな性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2024-06-20T12:59:27Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)
Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。 CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文参考訳（メタデータ） (2024-01-29T04:36:39Z)
Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs [80.74263278847063]
検索されたパスと大きな言語モデル(LLM)の統合は、オープンドメインの質問応答の改善に大きく貢献している。本稿では,検索したパスをLLMと組み合わせて回答生成を向上させる方法について検討する。
論文参考訳（メタデータ） (2023-08-24T05:26:54Z)
Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文参考訳（メタデータ） (2022-12-20T17:00:36Z)
Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。 GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文参考訳（メタデータ） (2020-09-17T23:08:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。