論文の概要: Enhancing Retrieval Augmented Generation with Hierarchical Text Segmentation Chunking
- arxiv url: http://arxiv.org/abs/2507.09935v1
- Date: Mon, 14 Jul 2025 05:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.353472
- Title: Enhancing Retrieval Augmented Generation with Hierarchical Text Segmentation Chunking
- Title(参考訳): 階層型テキストセグメンテーションチャンクによる検索拡張生成の強化
- Authors: Hai Toan Nguyen, Tien Dat Nguyen, Viet Ha Nguyen,
- Abstract要約: 本稿では階層的なテキストセグメンテーションとクラスタリングを統合してRAGを強化する新しいフレームワークを提案する。
推論中、このフレームワークはセグメントレベルのベクトル表現とクラスタレベルのベクトル表現の両方を活用することで情報を取得する。
ナラティブQA,Quality,QASPERデータセットの評価は,従来のチャンキング手法と比較して,提案手法が改善したことを示している。
- 参考スコア(独自算出の注目度): 0.9968037829925942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems commonly use chunking strategies for retrieval, which enhance large language models (LLMs) by enabling them to access external knowledge, ensuring that the retrieved information is up-to-date and domain-specific. However, traditional methods often fail to create chunks that capture sufficient semantic meaning, as they do not account for the underlying textual structure. This paper proposes a novel framework that enhances RAG by integrating hierarchical text segmentation and clustering to generate more meaningful and semantically coherent chunks. During inference, the framework retrieves information by leveraging both segment-level and cluster-level vector representations, thereby increasing the likelihood of retrieving more precise and contextually relevant information. Evaluations on the NarrativeQA, QuALITY, and QASPER datasets indicate that the proposed method achieved improved results compared to traditional chunking techniques.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、検索にチャンキング戦略を使うことが多い。
しかしながら、従来のメソッドは、基礎となるテキスト構造を考慮しないため、十分な意味をキャプチャするチャンクを作成するのに失敗することが多い。
本稿では,階層的なテキストセグメンテーションとクラスタリングを統合してRAGを強化し,より意味のある意味的コヒーレントなチャンクを生成する新しいフレームワークを提案する。
推論中、このフレームワークはセグメントレベルのベクトル表現とクラスタレベルのベクトル表現の両方を活用して情報を取得し、より正確で文脈的に関係のある情報を検索する可能性を高める。
ナラティブQA,Quality,QASPERデータセットの評価は,従来のチャンキング手法と比較して,提案手法が改善したことを示している。
関連論文リスト
- DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs [1.6575279044457722]
本稿では,セミスーパービジョンテキスト分類タスクの性能向上を目的としたクラスタリング,ラベル付け,拡張フレームワークを提案する。
従来のSSTCアプローチとは異なり、このフレームワークはクラスタリングを使用してラベリングの代表的な"ランドマーク"を選択する。
実験の結果,100以上のカテゴリを含む複雑な文書分類シナリオにおいても,Reutersデータセットでは95.41%,Web of Scienceデータセットでは82.43%の最先端の精度を達成した。
論文 参考訳(メタデータ) (2024-11-09T13:17:39Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Neural Sequence-to-Sequence Modeling with Attention by Leveraging Deep Learning Architectures for Enhanced Contextual Understanding in Abstractive Text Summarization [0.0]
本稿では,単一文書の抽象TSのための新しいフレームワークを提案する。
構造、セマンティック、およびニューラルベースアプローチの3つの主要な側面を統合している。
その結果, 希少語, OOV語処理の大幅な改善が示唆された。
論文 参考訳(メタデータ) (2024-04-08T18:33:59Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。