論文の概要: MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System
- arxiv url: http://arxiv.org/abs/2503.09600v2
- Date: Mon, 26 May 2025 12:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.642393
- Title: MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System
- Title(参考訳): MoC:検索強化システムのためのテキストチャンキング学習者の混合
- Authors: Jihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li,
- Abstract要約: 本稿では,境界明瞭度とチャンクスティックネスを組み合わせた2次元評価手法を提案する。
我々は、複雑なコンテキストニュアンスを扱う際に、伝統的および意味的なチャンキングの固有の制限を強調します。
3段階の処理機構からなるMixture-Aware Mixture-of-Chunkers (MoC) フレームワークを考案した。
- 参考スコア(独自算出の注目度): 11.793639794583498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG), while serving as a viable complement to large language models (LLMs), often overlooks the crucial aspect of text chunking within its pipeline. This paper initially introduces a dual-metric evaluation method, comprising Boundary Clarity and Chunk Stickiness, to enable the direct quantification of chunking quality. Leveraging this assessment method, we highlight the inherent limitations of traditional and semantic chunking in handling complex contextual nuances, thereby substantiating the necessity of integrating LLMs into chunking process. To address the inherent trade-off between computational efficiency and chunking precision in LLM-based approaches, we devise the granularity-aware Mixture-of-Chunkers (MoC) framework, which consists of a three-stage processing mechanism. Notably, our objective is to guide the chunker towards generating a structured list of chunking regular expressions, which are subsequently employed to extract chunks from the original text. Extensive experiments demonstrate that both our proposed metrics and the MoC framework effectively settle challenges of the chunking task, revealing the chunking kernel while enhancing the performance of the RAG system.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模な言語モデル(LLM)の補完として機能する一方で、パイプライン内でのテキストチャンキングの重要な側面を見落としていることが多い。
本稿では,まず境界明瞭度とチャンクスティックネスを組み合わせた2次元評価手法を提案し,チャンキング品質の直接定量化を実現した。
この評価手法を利用することで、複雑な文脈ニュアンスを扱う際に、従来のチャンキングや意味的なチャンキングに固有の制限を強調し、これにより、LCMをチャンキングプロセスに統合する必要性を裏付ける。
LLMに基づく手法では,計算効率とチャンキング精度の本質的にのトレードオフに対処するため,3段階の処理機構からなるMixture-of-Chunkers (MoC) フレームワークを考案した。
特に本研究の目的は,チャンキング正規表現の構造化リストを生成するためにチャンカーを誘導し,その後,原文からチャンカーを抽出することである。
大規模な実験により,提案したメトリクスとMoCフレームワークの両方が,チャンキングタスクの課題を効果的に解決し,RAGシステムの性能を向上しつつ,チャンキングカーネルを明らかにした。
関連論文リスト
- AI4Contracts: LLM & RAG-Powered Encoding of Financial Derivative Contracts [1.3060230641655135]
大規模言語モデル(LLM)と検索拡張生成(RAG)は、AIシステムが構造化されていないテキストから情報を抽出し整理する方法を再構築している。
本稿では,テンプレート駆動型LLMフレームワークであるCDMizerと,構造化テキスト変換のためのRAGベースのフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-06-01T16:05:00Z) - Document Valuation in LLM Summaries: A Cluster Shapley Approach [0.0]
大規模言語モデル(LLM)は、複数のソースからコンテンツを検索して要約するシステムにおいて、ますます使われている。
本稿では,各文書の余剰貢献に基づいてクレジットを割り当てるゲーム理論のShapley値を提案する。
そこで我々は,文書間の意味的類似性を利用した効率的な近似アルゴリズムであるCluster Shapleyを提案する。
論文 参考訳(メタデータ) (2025-05-28T15:14:21Z) - RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning [22.495874056980824]
本稿では,Representation Learning and textbfReasoning empowered search-textbfAugmented textbfLarge textbfLanguage model textbfRecommendation (RALLRec+)を提案する。
論文 参考訳(メタデータ) (2025-03-26T11:03:34Z) - Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture [0.0]
ICVは言語モデルの潜在埋め込みを用いて、コンテキスト内学習をリキャストする。
ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。
論文 参考訳(メタデータ) (2025-02-07T04:24:07Z) - Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される
現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。
自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文 参考訳(メタデータ) (2024-12-22T21:56:15Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。
実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。
従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文 参考訳(メタデータ) (2024-08-13T10:15:55Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [14.603394022550864]
CheckEmbed (CE)は、大規模言語モデル(LLM)の単純でスケーラブルで正確な検証方法である。
CEは、全問合せレベルで、高速でセマンティックにリッチな比較を行い、精度とスケーラビリティの両方において重要な制限を克服します。
実験の結果,CEは閉じたタスクとオープンエンドタスクの両方の幻覚を確実に検出することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:42:21Z) - Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor [4.35807211471107]
本研究では,検索強化言語モデルにおける検索情報圧縮のための2段階一貫性学習手法を提案する。
提案手法は複数のデータセットにまたがって実験的に検証され,質問応答タスクの精度と効率が顕著に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-04T12:43:23Z) - A Rationale-centric Counterfactual Data Augmentation Method for Cross-Document Event Coreference Resolution [29.34028569245905]
構造因果モデル(SCM)を用いたベースラインECRシステムの意思決定過程を定式化する。
LLM-in-the-loop を用いた有理中心の反実データ拡張法を開発した。
提案手法は,3つのクロスドキュメント ECR ベンチマークの最先端性能を実現し,ドメイン外シナリオの堅牢性を実証する。
論文 参考訳(メタデータ) (2024-04-02T13:15:07Z) - Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy [46.81745860690336]
大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクで大きく進歩している。
本稿では,推論プロセスの高速化のための汎用フレームワークを提案する。
我々は、推論加速フレームワークの適用によって達成された顕著な改善を実証するために、広範囲な実験を行う。
論文 参考訳(メタデータ) (2023-12-20T02:55:15Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale [64.10124092250126]
大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
論文 参考訳(メタデータ) (2023-04-19T18:09:27Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。