論文の概要: Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception
- arxiv url: http://arxiv.org/abs/2410.12788v1
- Date: Wed, 16 Oct 2024 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:34.492016
- Title: Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception
- Title(参考訳): メタチャンキング:論理的知覚による効率的なテキストセグメンテーションの学習
- Authors: Jihao Zhao, Zhiyuan Ji, Pengnian Qi, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li,
- Abstract要約: 本稿では,文と段落の粒度を表すメタチャンキングの概念を紹介する。
本稿では,メタチャンキングと動的マージを組み合わせることで,粒度の細かいテキストチャンキングと粗いテキストチャンキングのバランスをとる戦略を提案する。
11のデータセットで実施された実験により、Meta-Chunkingはシングルホップおよびマルチホップ質問応答のパフォーマンスをより効率的に改善できることが示された。
- 参考スコア(独自算出の注目度): 10.639704200741956
- License:
- Abstract: Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline, which impacts the quality of knowledge-intensive tasks. This paper introduces the concept of Meta-Chunking, which refers to a granularity between sentences and paragraphs, consisting of a collection of sentences within a paragraph that have deep linguistic logical connections. To implement Meta-Chunking, we designed two strategies based on LLMs: Margin Sampling Chunking and Perplexity Chunking. The former employs LLMs to perform binary classification on whether consecutive sentences need to be segmented, making decisions based on the probability difference obtained from margin sampling. The latter precisely identifies text chunk boundaries by analyzing the characteristics of perplexity distribution. Additionally, considering the inherent complexity of different texts, we propose a strategy that combines Meta-Chunking with dynamic merging to achieve a balance between fine-grained and coarse-grained text chunking. Experiments conducted on eleven datasets demonstrate that Meta-Chunking can more efficiently improve the performance of single-hop and multi-hop question answering based on RAG. For instance, on the 2WikiMultihopQA dataset, it outperforms similarity chunking by 1.32 while only consuming 45.8% of the time. Our code is available at https://github.com/IAAR-Shanghai/Meta-Chunking.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大きな言語モデル(LLM)の補完として機能する一方で、多くの場合、パイプライン内のテキストチャンキングの重要な側面を見落とし、知識集約タスクの品質に影響を与える。
本稿では,文と段落の粒度を表すメタチャンキングの概念を紹介する。
メタチャンキングを実装するために,我々は,マルチサンプリングチャンキング(Margin Sampling Chunking)とパープレキシティチャンキング(Perplexity Chunking)の2つの戦略を設計した。
前者はLLMを用いて、連続する文をセグメント化する必要があるかどうかを二分分類し、マージンサンプリングから得られる確率差に基づいて決定する。
後者は、パープレキシティ分布の特性を分析することにより、テキストチャンク境界を正確に識別する。
さらに, テキストの複雑さを考慮し, メタチャンキングと動的マージを組み合わせて, きめ細かなテキストチャンキングと粗いテキストチャンキングのバランスをとる戦略を提案する。
11のデータセットで実施された実験により、メタチャンキングは、RAGに基づくシングルホップおよびマルチホップ質問応答の性能をより効率的に改善できることが示された。
例えば、2WikiMultihopQAデータセットでは、45.8%の時間しか消費せず、類似性が1.32倍に向上している。
私たちのコードはhttps://github.com/IAAR-Shanghai/Meta-Chunking.comで公開されています。
関連論文リスト
- LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison
Scaling of Texts with Large Language Models [3.9940425551415597]
既存のテキストスケーリング手法は、大きなコーパス、短いテキストとの競合、ラベル付きデータを必要とすることが多い。
生成する大規模言語モデルのパターン認識機能を活用したテキストスケーリング手法を開発した。
LLMと実体知識を組み合わせることで、抽象概念の最先端の尺度をいかに作成できるかを実証する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Parts2Words: Learning Joint Embedding of Point Clouds and Texts by
Bidirectional Matching between Parts and Words [32.47815081044594]
テキストからの形状と単語の双方向マッチングにより,点雲とテキストの結合埋め込みを学習することを提案する。
具体的には、まず点雲を部品に分割し、次に最適化された特徴空間内の部品と単語を一致させるために最適な輸送手法を利用する。
実験により,本手法はマルチモーダル検索タスクにおけるSOTAの精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-07-05T08:55:34Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。