論文の概要: A Systematic Framework for Enterprise Knowledge Retrieval: Leveraging LLM-Generated Metadata to Enhance RAG Systems
- arxiv url: http://arxiv.org/abs/2512.05411v1
- Date: Fri, 05 Dec 2025 04:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.892797
- Title: A Systematic Framework for Enterprise Knowledge Retrieval: Leveraging LLM-Generated Metadata to Enhance RAG Systems
- Title(参考訳): 企業知識検索のための体系的フレームワーク: LLM生成メタデータを活用してRAGシステムを実現する
- Authors: Pranav Pushkar Mishra, Kranti Prakash Yeole, Ramyashree Keshavamurthy, Mokshit Bharat Surana, Fatemeh Sarayloo,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いたメタデータ強化のための体系的フレームワークを提案する。
提案手法では,文書セグメントに意味のあるメタデータを動的に生成する包括的,構造化されたパイプラインを用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In enterprise settings, efficiently retrieving relevant information from large and complex knowledge bases is essential for operational productivity and informed decision-making. This research presents a systematic framework for metadata enrichment using large language models (LLMs) to enhance document retrieval in Retrieval-Augmented Generation (RAG) systems. Our approach employs a comprehensive, structured pipeline that dynamically generates meaningful metadata for document segments, substantially improving their semantic representations and retrieval accuracy. Through extensive experiments, we compare three chunking strategies-semantic, recursive, and naive-and evaluate their effectiveness when combined with advanced embedding techniques. The results demonstrate that metadata-enriched approaches consistently outperform content-only baselines, with recursive chunking paired with TF-IDF weighted embeddings yielding an 82.5% precision rate compared to 73.3% for semantic content-only approaches. The naive chunking strategy with prefix-fusion achieved the highest Hit Rate@10 of 0.925. Our evaluation employs cross-encoder reranking for ground truth generation, enabling rigorous assessment via Hit Rate and Metadata Consistency metrics. These findings confirm that metadata enrichment enhances vector clustering quality while reducing retrieval latency, making it a key optimization for RAG systems across knowledge domains. This work offers practical insights for deploying high-performance, scalable document retrieval solutions in enterprise settings, demonstrating that metadata enrichment is a powerful approach for enhancing RAG effectiveness.
- Abstract(参考訳): 企業環境では、大規模かつ複雑な知識ベースから関連情報を効率的に取得することは、運用の生産性と情報的意思決定に不可欠である。
本研究では,大規模言語モデル(LLM)を用いたメタデータ強化のための体系的フレームワークを提案する。
提案手法では,文書セグメントに意味のあるメタデータを動的に生成し,意味表現や検索精度を大幅に向上する包括的,構造化されたパイプラインを用いる。
広汎な実験を通じて,3つのチャンキング戦略(セマンティック,再帰,ナイーブ)を比較し,先進的な埋め込み技術と組み合わせて有効性を評価する。
その結果、メタデータに富んだアプローチはコンテンツのみのベースラインを一貫して上回り、再帰的なチャンクとTF-IDFの重み付けを組み合わせれば、セマンティックなコンテンツのみのアプローチでは73.3%に比べて82.5%の精度で精度が向上することがわかった。
プレフィックス融合によるナイーブなチャンキング戦略は0.925の最高Hit Rate@10を達成した。
本評価では,地中真理生成にクロスエンコーダを付加し,Hit RateとMetadata Consistencyメトリクスによる厳密な評価を可能にした。
これらの結果から,メタデータの充実は,検索遅延を低減しつつ,ベクトルクラスタリングの品質を向上させることが確認された。
この研究は、エンタープライズ環境で高性能でスケーラブルなドキュメント検索ソリューションをデプロイするための実践的な洞察を提供し、メタデータの充実がRAGの有効性を高めるための強力なアプローチであることを実証する。
関連論文リスト
- Metadata-Driven Retrieval-Augmented Generation for Financial Question Answering [0.0]
文脈的にリッチなドキュメントチャンクを作成するための高度なインデックスパイプラインを導入します。
我々は、検索前フィルタリング、検索後再ランク付け、エンリッチな埋め込みなど、さまざまな拡張のスペクトルをベンチマークする。
提案する最適アーキテクチャは、LLM駆動の事前検索最適化とコンテキスト埋め込みを組み合わせることで、優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T13:16:36Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - DACL-RAG: Data Augmentation Strategy with Curriculum Learning for Retrieval-Augmented Generation [54.26665681604041]
DACL-RAGは多段階データ拡張戦略と多段階学習パラダイムを組み合わせた多段階RAGトレーニングフレームワークである。
我々のフレームワークは、4つのオープンドメインQAデータセットで一貫した有効性を示し、複数の高度なメソッドに対して2%から4%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-15T16:53:04Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding [2.368662284133926]
本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。
我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。
我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-02T01:16:10Z) - Meta Knowledge for Retrieval Augmented Large Language Models [0.0]
大規模言語モデル(LLM)のための新しいデータ中心型RAGワークフローを提案する。
提案手法は,各文書にメタデータと合成質問文(QA)を生成することに依存する。
合成質問マッチングによる拡張クエリの使用は、従来のRAGパイプラインよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T20:55:21Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。