論文の概要: Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception
- arxiv url: http://arxiv.org/abs/2410.12788v1
- Date: Wed, 16 Oct 2024 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:34.492016
- Title: Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception
- Title(参考訳): メタチャンキング:論理的知覚による効率的なテキストセグメンテーションの学習
- Authors: Jihao Zhao, Zhiyuan Ji, Pengnian Qi, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li,
- Abstract要約: 本稿では,文と段落の粒度を表すメタチャンキングの概念を紹介する。
本稿では,メタチャンキングと動的マージを組み合わせることで,粒度の細かいテキストチャンキングと粗いテキストチャンキングのバランスをとる戦略を提案する。
11のデータセットで実施された実験により、Meta-Chunkingはシングルホップおよびマルチホップ質問応答のパフォーマンスをより効率的に改善できることが示された。
- 参考スコア(独自算出の注目度): 10.639704200741956
- License:
- Abstract: Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline, which impacts the quality of knowledge-intensive tasks. This paper introduces the concept of Meta-Chunking, which refers to a granularity between sentences and paragraphs, consisting of a collection of sentences within a paragraph that have deep linguistic logical connections. To implement Meta-Chunking, we designed two strategies based on LLMs: Margin Sampling Chunking and Perplexity Chunking. The former employs LLMs to perform binary classification on whether consecutive sentences need to be segmented, making decisions based on the probability difference obtained from margin sampling. The latter precisely identifies text chunk boundaries by analyzing the characteristics of perplexity distribution. Additionally, considering the inherent complexity of different texts, we propose a strategy that combines Meta-Chunking with dynamic merging to achieve a balance between fine-grained and coarse-grained text chunking. Experiments conducted on eleven datasets demonstrate that Meta-Chunking can more efficiently improve the performance of single-hop and multi-hop question answering based on RAG. For instance, on the 2WikiMultihopQA dataset, it outperforms similarity chunking by 1.32 while only consuming 45.8% of the time. Our code is available at https://github.com/IAAR-Shanghai/Meta-Chunking.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大きな言語モデル(LLM)の補完として機能する一方で、多くの場合、パイプライン内のテキストチャンキングの重要な側面を見落とし、知識集約タスクの品質に影響を与える。
本稿では,文と段落の粒度を表すメタチャンキングの概念を紹介する。
メタチャンキングを実装するために,我々は,マルチサンプリングチャンキング(Margin Sampling Chunking)とパープレキシティチャンキング(Perplexity Chunking)の2つの戦略を設計した。
前者はLLMを用いて、連続する文をセグメント化する必要があるかどうかを二分分類し、マージンサンプリングから得られる確率差に基づいて決定する。
後者は、パープレキシティ分布の特性を分析することにより、テキストチャンク境界を正確に識別する。
さらに, テキストの複雑さを考慮し, メタチャンキングと動的マージを組み合わせて, きめ細かなテキストチャンキングと粗いテキストチャンキングのバランスをとる戦略を提案する。
11のデータセットで実施された実験により、メタチャンキングは、RAGに基づくシングルホップおよびマルチホップ質問応答の性能をより効率的に改善できることが示された。
例えば、2WikiMultihopQAデータセットでは、45.8%の時間しか消費せず、類似性が1.32倍に向上している。
私たちのコードはhttps://github.com/IAAR-Shanghai/Meta-Chunking.comで公開されています。
関連論文リスト
- LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は、抽象命題セグメンテーション(APS)の課題に焦点を合わせ、テキストを単純で自己完結した、よく表現された文に変換する。
まず、タスクの評価基準を導入し、いくつかの品質の次元を計測する。
次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。
論文 参考訳(メタデータ) (2024-06-28T10:24:31Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison
Scaling of Texts with Large Language Models [3.9940425551415597]
既存のテキストスケーリング手法は、大きなコーパス、短いテキストとの競合、ラベル付きデータを必要とすることが多い。
生成する大規模言語モデルのパターン認識機能を活用したテキストスケーリング手法を開発した。
LLMと実体知識を組み合わせることで、抽象概念の最先端の尺度をいかに作成できるかを実証する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Automatic Text Evaluation through the Lens of Wasserstein Barycenters [24.71226781348407]
文脈の深い埋め込みに基づくテキスト生成を評価するために,新しい計量式texttBaryScore が導入された。
以上の結果から, texttBaryScore は他のBERT ベースの指標よりも優れており,特にテキスト要約において一貫した振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2021-08-27T19:08:52Z) - MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。
教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。
提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文 参考訳(メタデータ) (2020-08-27T04:22:37Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。