論文の概要: LumberChunker: Long-Form Narrative Document Segmentation
- arxiv url: http://arxiv.org/abs/2406.17526v1
- Date: Tue, 25 Jun 2024 13:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:20:18.400294
- Title: LumberChunker: Long-Form Narrative Document Segmentation
- Title(参考訳): LumberChunker: 長期にわたるナラティブなドキュメントセグメンテーション
- Authors: André V. Duarte, João Marques, Miguel Graça, Miguel Freire, Lei Li, Arlindo L. Oliveira,
- Abstract要約: LumberChunkerは文書を動的に分割する手法である。
反復的にLLMに、コンテンツがシフトし始める一連の通路群内の点を特定するように促す。
実験の結果,LumberChunkerの検索性能は7.37%向上した。
- 参考スコア(独自算出の注目度): 4.926989689467424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern NLP tasks increasingly rely on dense retrieval methods to access up-to-date and relevant contextual information. We are motivated by the premise that retrieval benefits from segments that can vary in size such that a content's semantic independence is better captured. We propose LumberChunker, a method leveraging an LLM to dynamically segment documents, which iteratively prompts the LLM to identify the point within a group of sequential passages where the content begins to shift. To evaluate our method, we introduce GutenQA, a benchmark with 3000 "needle in a haystack" type of question-answer pairs derived from 100 public domain narrative books available on Project Gutenberg. Our experiments show that LumberChunker not only outperforms the most competitive baseline by 7.37% in retrieval performance (DCG@20) but also that, when integrated into a RAG pipeline, LumberChunker proves to be more effective than other chunking methods and competitive baselines, such as the Gemini 1.5M Pro. Our Code and Data are available at https://github.com/joaodsmarques/LumberChunker
- Abstract(参考訳): 現代のNLPタスクは、最新の関連するコンテキスト情報にアクセスするために、より密集した検索手法に依存している。
私たちは、コンテンツのセマンティックな独立性がより捕えられるように、サイズが変化するセグメントから、検索が恩恵を受けるという前提に動機付けられています。
LLMを利用して動的に文書を分割する手法であるLumberChunkerを提案する。
提案手法を評価するため,Project Gutenbergで公開されている100冊のパブリックドメイン物語書から,3000冊の「干し草に潜む」タイプの質問応答対のベンチマークであるGutenQAを紹介した。
我々の実験によると、LumberChunkerは検索性能(DCG@20)が7.37%向上するだけでなく、RAGパイプラインに統合された場合、Gemini 1.5M Proのような他のチャンキング手法や競争ベースラインよりも効果的であることが証明された。
私たちのコードとデータはhttps://github.com/joaodsmarques/LumberChunkerで公開されています。
関連論文リスト
- GARLIC: LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph for Long Document QA [16.945257645760428]
過去には、Retrieval-Augmented Generation (RAG)メソッドがテキストをチャンクに分割して、長いドキュメントを扱う言語モデルを実現していた。
近年のツリーベースRAG法では,グローバルなコンテキストを保ちながら詳細な情報を取得することができる。
階層重みグラフ(GARLIC)を用いた LLM-Guided Dynamic Progress Control と呼ばれる新しい検索手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T07:02:09Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction [43.50683283748675]
文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
論文 参考訳(メタデータ) (2024-01-24T17:04:28Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - IR-BERT: Leveraging BERT for Semantic Search in Background Linking for
News Articles [2.707154152696381]
本稿では,TREC 2020 News Trackの背景リンクタスクに対する2つのアプローチについて述べる。
このタスクの主な目的は、読者がコンテキストを理解するために参照すべき関連記事のリストを推薦することである。
言語モデルの導入は、クエリ記事の背景だけでなく、コンテキストを理解する上でも、私たちのアプローチに有効であることを実証的に示します。
論文 参考訳(メタデータ) (2020-07-24T16:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。