Fugu-MT 論文翻訳(概要): LumberChunker: Long-Form Narrative Document Segmentation

論文の概要: LumberChunker: Long-Form Narrative Document Segmentation

arxiv url: http://arxiv.org/abs/2406.17526v1
Date: Tue, 25 Jun 2024 13:08:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 14:20:18.400294
Title: LumberChunker: Long-Form Narrative Document Segmentation
Title（参考訳）: LumberChunker: 長期にわたるナラティブなドキュメントセグメンテーション
Authors: André V. Duarte, João Marques, Miguel Graça, Miguel Freire, Lei Li, Arlindo L. Oliveira,
Abstract要約: LumberChunkerは文書を動的に分割する手法である。反復的にLLMに、コンテンツがシフトし始める一連の通路群内の点を特定するように促す。実験の結果,LumberChunkerの検索性能は7.37%向上した。
参考スコア（独自算出の注目度）: 4.926989689467424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern NLP tasks increasingly rely on dense retrieval methods to access up-to-date and relevant contextual information. We are motivated by the premise that retrieval benefits from segments that can vary in size such that a content's semantic independence is better captured. We propose LumberChunker, a method leveraging an LLM to dynamically segment documents, which iteratively prompts the LLM to identify the point within a group of sequential passages where the content begins to shift. To evaluate our method, we introduce GutenQA, a benchmark with 3000 "needle in a haystack" type of question-answer pairs derived from 100 public domain narrative books available on Project Gutenberg. Our experiments show that LumberChunker not only outperforms the most competitive baseline by 7.37% in retrieval performance (DCG@20) but also that, when integrated into a RAG pipeline, LumberChunker proves to be more effective than other chunking methods and competitive baselines, such as the Gemini 1.5M Pro. Our Code and Data are available at https://github.com/joaodsmarques/LumberChunker
Abstract（参考訳）: 現代のNLPタスクは、最新の関連するコンテキスト情報にアクセスするために、より密集した検索手法に依存している。私たちは、コンテンツのセマンティックな独立性がより捕えられるように、サイズが変化するセグメントから、検索が恩恵を受けるという前提に動機付けられています。 LLMを利用して動的に文書を分割する手法であるLumberChunkerを提案する。提案手法を評価するため,Project Gutenbergで公開されている100冊のパブリックドメイン物語書から,3000冊の「干し草に潜む」タイプの質問応答対のベンチマークであるGutenQAを紹介した。我々の実験によると、LumberChunkerは検索性能(DCG@20)が7.37%向上するだけでなく、RAGパイプラインに統合された場合、Gemini 1.5M Proのような他のチャンキング手法や競争ベースラインよりも効果的であることが証明された。私たちのコードとデータはhttps://github.com/joaodsmarques/LumberChunkerで公開されています。

関連論文リスト

SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-03T23:59:31Z)
LAQuer: Localized Attribution Queries in Content-grounded Generation [69.60308443863606]
グラウンドドテキスト生成モデルは、しばしば元の資料から逸脱したコンテンツを生成し、正確性を保証するためにユーザの検証を必要とする。既存の属性メソッドは、全文とソース文書を関連付けるが、これは特定のクレームを事実チェックしようとするユーザにとって圧倒的に多い。これは、生成された出力の選択したスパンを対応するソーススパンにローカライズし、きめ細かな、ユーザ指向のアトリビューションを可能にする新しいタスクである。
論文参考訳（メタデータ） (2025-06-01T21:46:23Z)
ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文参考訳（メタデータ） (2025-05-17T08:48:43Z)
TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification [32.958143806547234]
テキストpROVEnance(TROVE)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。 TROVEをベンチマークするために、11の多様なシナリオをカバーする3つの公開データセットを活用してデータセットを構築します。我々は、直接的プロンプトおよび検索拡張パラダイムの下で11個のLLMを評価する。
論文参考訳（メタデータ） (2025-03-19T15:09:39Z)
Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文参考訳（メタデータ） (2025-02-18T02:49:40Z)
Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文参考訳（メタデータ） (2024-12-25T10:08:54Z)
Improving Generated and Retrieved Knowledge Combination Through Zero-shot Generation [41.43397783169612]
オープンドメイン質問回答(QA)は,大規模言語モデル(LLM)による忠実に検索されたパスと関連するパスを組み合わせることで,かなりの関心を集めている。これらの知識の源と組み合わせるための明確なラベルが不足している。本稿では,検索したパスとLLM生成したパスの両方に対して,再格付け手法を利用したBi-Re rank for Merging Generated and Retrieved Knowledge (BRMGR)を提案する。
論文参考訳（メタデータ） (2024-12-25T06:40:36Z)
Maybe you are looking for CroQS: Cross-modal Query Suggestion for Text-to-Image Retrieval [15.757140563856675]
この研究は、コレクションの視覚的に一貫したサブセットを探索するために必要な最小限のテキスト修正を提案することに焦点を当てた、新しいタスクを導入している。提案手法の評価と開発を容易にするため,CroQSというベンチマークを試作した。画像キャプションやコンテンツ要約などの関連分野からのベースライン手法をこのタスクに適用し、基準性能スコアを提供する。
論文参考訳（メタデータ） (2024-12-18T13:24:09Z)
GARLIC: LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph for Long Document QA [16.945257645760428]
過去には、Retrieval-Augmented Generation (RAG)メソッドがテキストをチャンクに分割して、長いドキュメントを扱う言語モデルを実現していた。近年のツリーベースRAG法では,グローバルなコンテキストを保ちながら詳細な情報を取得することができる。階層重みグラフ(GARLIC)を用いた LLM-Guided Dynamic Progress Control と呼ばれる新しい検索手法を提案する。
論文参考訳（メタデータ） (2024-10-07T07:02:09Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
Consistency Guided Knowledge Retrieval and Denoising in LLMs for Zero-shot Document-level Relation Triplet Extraction [43.50683283748675]
文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。既存の手法は、かなりの量の完全なラベル付きデータに依存している。 ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
論文参考訳（メタデータ） (2024-01-24T17:04:28Z)
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文参考訳（メタデータ） (2023-10-08T06:18:14Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文参考訳（メタデータ） (2023-05-23T17:27:50Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
IR-BERT: Leveraging BERT for Semantic Search in Background Linking for News Articles [2.707154152696381]
本稿では,TREC 2020 News Trackの背景リンクタスクに対する2つのアプローチについて述べる。このタスクの主な目的は、読者がコンテキストを理解するために参照すべき関連記事のリストを推薦することである。言語モデルの導入は、クエリ記事の背景だけでなく、コンテキストを理解する上でも、私たちのアプローチに有効であることを実証的に示します。
論文参考訳（メタデータ） (2020-07-24T16:02:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。