論文の概要: MDKeyChunker: Single-Call LLM Enrichment with Rolling Keys and Key-Based Restructuring for High-Accuracy RAG
- arxiv url: http://arxiv.org/abs/2603.23533v2
- Date: Fri, 27 Mar 2026 05:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.023543
- Title: MDKeyChunker: Single-Call LLM Enrichment with Rolling Keys and Key-Based Restructuring for High-Accuracy RAG
- Title(参考訳): MDKeyChunker: ローリングキーとキーベースの高精度RAG再構成によるシングルコールLDM強化
- Authors: Bhavik Mangla,
- Abstract要約: RAGパイプラインは通常、ドキュメント構造を無視し、境界を越えたセマンティックユニットを断片化し、メタデータ抽出のためにチャンク毎の複数のLCMコールを必要とする固定サイズのチャンクに依存している。
MDKeyChunkerはMarkdown文書のための3段階パイプラインであり、ヘッダ、コードブロック、テーブル、リストをアトミック単位として扱う構造対応チャンキングを実行する。
シングルコール設計では、1つのLSM呼び出しで7つのメタデータフィールド全てを抽出し、フィールド毎の抽出パスを分離する必要がなくなる。
ローリングキーの伝搬は、手動のスコアリングをLLMネイティブなセマンティックマッチングに置き換える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RAG pipelines typically rely on fixed-size chunking, which ignores document structure, fragments semantic units across boundaries, and requires multiple LLM calls per chunk for metadata extraction. We present MDKeyChunker, a three-stage pipeline for Markdown documents that (1) performs structure-aware chunking treating headers, code blocks, tables, and lists as atomic units; (2) enriches each chunk via a single LLM call extracting title, summary, keywords, typed entities, hypothetical questions, and a semantic key, while propagating a rolling key dictionary to maintain document-level context; and (3) restructures chunks by merging those sharing the same semantic key via bin-packing, co-locating related content for retrieval. The single-call design extracts all seven metadata fields in one LLM invocation, eliminating the need for separate per-field extraction passes. Rolling key propagation replaces hand-tuned scoring with LLM-native semantic matching. An empirical evaluation on 30 queries over an 18-document Markdown corpus shows Config D (BM25 over structural chunks) achieves Recall@5=1.000 and MRR=0.911, while dense retrieval over the full pipeline (Config C) reaches Recall@5=0.867. MDKeyChunker is implemented in Python with four dependencies and supports any OpenAI-compatible endpoint.
- Abstract(参考訳): RAGパイプラインは通常、ドキュメント構造を無視し、境界を越えたセマンティックユニットを断片化し、メタデータ抽出のためにチャンク毎の複数のLCMコールを必要とする固定サイズのチャンクに依存している。
MDKeyChunkerは,(1)ヘッダ,コードブロック,テーブル,リストをアトミック単位として扱い,(2)単一のLCMコール抽出タイトル,要約,キーワード,型付きエンティティ,仮説的質問,セマンティックキーを通じて各チャンクを濃縮し,(3)文書レベルのコンテキストを維持するためにローリングキー辞書を伝搬し,(3)同一セマンティックキーを共有することでチャンクを再構築する。
シングルコール設計では、1つのLSM呼び出しで7つのメタデータフィールド全てを抽出し、フィールド毎の抽出パスを分離する必要がなくなる。
ローリングキーの伝搬は、手動のスコアリングをLLMネイティブなセマンティックマッチングに置き換える。
18文書のMarkdownコーパス上の30クエリに対する実証的な評価では、Config D(BM25 over Structure chunks)がRecall@5=1.000とMRR=0.911を達成する一方で、完全なパイプライン(Config C)上の密度の高い検索はRecall@5=0.867に達する。
MDKeyChunkerはPythonで実装され、4つの依存関係を持ち、あらゆるOpenAI互換エンドポイントをサポートする。
関連論文リスト
- Evidence Units: Ontology-Grounded Document Organization for Parser-Independent Retrieval [0.0]
要素レベルの索引付けは、独立したチャンクとして解析された全ての要素を扱い、セマンティックな結合単位を別々の検索候補に分散させる。
本稿では,エビデンス・ユニット(EU)を構成するパイプラインについて述べる。
論文 参考訳(メタデータ) (2026-04-01T05:32:16Z) - HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention [62.79085204939384]
HISA (Hierarchical Indexed Sparse Attention) は、平らなトークンスキャンから2段階の階層的な手順に検索パスを書き換える。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
論文 参考訳(メタデータ) (2026-03-30T13:59:51Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - MAPEX: A Multi-Agent Pipeline for Keyphrase Extraction [17.455890872696894]
キーフレーズ抽出にマルチエージェント協調を導入するMAPEXを提案する。
MAPEXは、専門家の募集、候補者抽出、トピックガイダンス、知識増強、後処理のためのモジュールを通してLLMベースのエージェントをコーディネートする。
二重パス戦略は文書長に動的に適応する: 短文の知識駆動抽出と長文のトピック誘導抽出である。
論文 参考訳(メタデータ) (2025-09-23T09:00:43Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - IterKey: Iterative Keyword Generation with LLMs for Enhanced Retrieval Augmented Generation [24.108631023133704]
IterKeyは、スパース検索によるRAGを強化する反復的なキーワード生成フレームワークである。
BM25ベースのRAGと単純なベースラインよりも5%から20%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-13T11:25:15Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。