論文の概要: Breaking It Down: Domain-Aware Semantic Segmentation for Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2512.00367v1
- Date: Sat, 29 Nov 2025 07:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.198484
- Title: Breaking It Down: Domain-Aware Semantic Segmentation for Retrieval Augmented Generation
- Title(参考訳): ドメイン対応セマンティックセマンティックセマンティックセグメンテーションによる検索機能強化
- Authors: Aparajitha Allamraju, Maitreya Prafulla Chitale, Hiranmai Sri Adibhatla, Rahul Mishra, Manish Shrivastava,
- Abstract要約: 本稿では,PSCとMFCの2つの効率的なセマンティックチャンキング手法を提案する。
以上の結果から,MRRでは24倍,PubMedQAではHits@kが高値を示した。
単一のドメインでトレーニングされているにもかかわらず、PSCとMFCもうまく一般化し、複数のデータセットでドメイン外での強力なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 5.0491491564528515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document chunking is a crucial component of Retrieval-Augmented Generation (RAG), as it directly affects the retrieval of relevant and precise context. Conventional fixed-length and recursive splitters often produce arbitrary, incoherent segments that fail to preserve semantic structure. Although semantic chunking has gained traction, its influence on generation quality remains underexplored. This paper introduces two efficient semantic chunking methods, Projected Similarity Chunking (PSC) and Metric Fusion Chunking (MFC), trained on PubMed data using three different embedding models. We further present an evaluation framework that measures the effect of chunking on both retrieval and generation by augmenting PubMedQA with full-text PubMed Central articles. Our results show substantial retrieval improvements (24x with PSC) in MRR and higher Hits@k on PubMedQA. We provide a comprehensive analysis, including statistical significance and response-time comparisons with common chunking libraries. Despite being trained on a single domain, PSC and MFC also generalize well, achieving strong out-of-domain generation performance across multiple datasets. Overall, our findings confirm that our semantic chunkers, especially PSC, consistently deliver superior performance.
- Abstract(参考訳): 文書チャンキングは、関連性および正確なコンテキストの検索に直接影響するため、検索型拡張生成(RAG)の重要な構成要素である。
従来の固定長および再帰スプリッターは、意味構造を保存できない任意の不整合セグメントを生成することが多い。
セマンティック・チャンキングは勢いを増しているが、生成品質への影響はいまだに過小評価されている。
本稿では,3種類の埋め込みモデルを用いてPubMedデータをトレーニングした2つの効率的なセマンティックチャンキング手法,PSC(Projected similarity Chunking)とMFC(Metric Fusion Chunking)を紹介する。
さらに,全文PubMedCentral記事にPubMedQAを付加することにより,チャンキングが検索と生成の両方に与える影響を評価する評価フレームワークを提案する。
以上の結果から,MRRでは24倍,PubMedQAではHits@kが高値を示した。
我々は,統計的意義と共通チャンキングライブラリとの応答時間比較を含む包括的分析を行う。
単一のドメインでトレーニングされているにもかかわらず、PSCとMFCもうまく一般化し、複数のデータセットでドメイン外での強力なパフォーマンスを実現している。
総じて, セマンティックチャンカー, 特にPSCは, 常に優れた性能を発揮することが確認された。
関連論文リスト
- A New HOPE: Domain-agnostic Automatic Evaluation of Text Chunking [44.47350338664039]
文書チャンキングは検索強化世代(RAG)に根本的に影響する
現在、さまざまなチャンキングメソッドの影響を分析するためのフレームワークはありません。
本稿では,チャンキングプロセスの本質的特徴を3段階に定義する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T16:22:27Z) - Passage Segmentation of Documents for Extractive Question Answering [0.0]
本研究では,高密度流路検索と終端RAGパイプラインの性能向上において,チャンキングが重要な役割を担っていることを強調する。
長い文書をコンテキスト化して自己完結した様々な粒度のチャンクに分割する新しいフレームワークであるLogits-Guided Multi-Granular Chunker (LGMGC)を紹介した。
論文 参考訳(メタデータ) (2025-01-17T03:42:18Z) - SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.60045548116584]
SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。
SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
論文 参考訳(メタデータ) (2024-12-09T04:56:43Z) - Is Semantic Chunking Worth the Computational Cost? [0.0]
本研究は,3つの共通検索タスクを用いた意味的チャンキングの有効性を体系的に評価する。
その結果,セマンティックチャンキングに伴う計算コストは,一貫した性能向上によって正当化されないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T21:53:48Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation [118.18977078626776]
イベントセグメンテーション/バウンダリ検出のためのエンドツーエンドの自己教師型学習フレームワークを提案する。
本フレームワークは, イベント境界を再構成誤差で検出するトランスフォーマーに基づく特徴再構成手法を利用する。
私たちの研究の目標は、特定のイベントをローカライズするのではなく、ジェネリックイベントをセグメント化することです。
論文 参考訳(メタデータ) (2021-09-30T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。