論文の概要: Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data
- arxiv url: http://arxiv.org/abs/2507.12425v1
- Date: Wed, 16 Jul 2025 17:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.48839
- Title: Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data
- Title(参考訳): 構造的企業データと内部データのための検索機能強化
- Authors: Chandana Cheerla,
- Abstract要約: 大きな言語モデル(LLM)は強力な生成能力を持つ。
静的事前トレーニング、短いコンテキストウィンドウ、および異種データフォーマットを処理する際の課題によって制限されている。
従来のRetrieval-Augmented Generation (RAG) フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations increasingly rely on proprietary enterprise data, including HR records, structured reports, and tabular documents, for critical decision-making. While Large Language Models (LLMs) have strong generative capabilities, they are limited by static pretraining, short context windows, and challenges in processing heterogeneous data formats. Conventional Retrieval-Augmented Generation (RAG) frameworks address some of these gaps but often struggle with structured and semi-structured data. This work proposes an advanced RAG framework that combines hybrid retrieval strategies using dense embeddings (all-mpnet-base-v2) and BM25, enhanced by metadata-aware filtering with SpaCy NER and cross-encoder reranking. The framework applies semantic chunking to maintain textual coherence and retains tabular data structures to preserve row-column integrity. Quantized indexing optimizes retrieval efficiency, while human-in-the-loop feedback and conversation memory improve adaptability. Experiments on enterprise datasets show notable improvements: Precision@5 increased by 15 percent (90 versus 75), Recall@5 by 13 percent (87 versus 74), and Mean Reciprocal Rank by 16 percent (0.85 versus 0.69). Qualitative evaluations show higher scores in Faithfulness (4.6 versus 3.0), Completeness (4.2 versus 2.5), and Relevance (4.5 versus 3.2) on a 5-point Likert scale. These results demonstrate the framework's effectiveness in delivering accurate, comprehensive, and contextually relevant responses for enterprise tasks. Future work includes extending to multimodal data and integrating agent-based retrieval. The source code will be released at https://github.com/CheerlaChandana/Enterprise-Chatbot
- Abstract(参考訳): 組織は批判的な意思決定のために、人事記録、構造化レポート、表形式の文書など、プロプライエタリな企業データにますます依存している。
大きな言語モデル(LLM)は強力な生成能力を持つが、静的事前トレーニング、短いコンテキストウィンドウ、異種データフォーマットを処理する際の課題によって制限される。
従来のRetrieval-Augmented Generation (RAG)フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
このフレームワークは、テキストコヒーレンスを維持するためにセマンティックチャンキングを適用し、行列の整合性を維持するために表形式のデータ構造を保持する。
量子索引付けは検索効率を最適化し、ヒューマン・イン・ザ・ループのフィードバックと会話メモリは適応性を改善する。
エンタープライズデータセットの実験では、Precision@5が15%(90対75)、Recall@5が13%(87対74)、Mean Reciprocal Rankが16%(0.85対0.69)向上した。
質的な評価では、Fithfulness(4.6対3.0)、Completeness(4.2対2.5)、Relevance(4.5対3.2)のスコアが5ポイントのLikertスケールで高い。
これらの結果は、このフレームワークがエンタープライズタスクに対して正確で包括的でコンテキストに関連のある応答を提供する上での有効性を示すものである。
今後の作業には、マルチモーダルデータの拡張とエージェントベースの検索の統合が含まれる。
ソースコードはhttps://github.com/CheerlaChandana/Enterprise-Chatbotで公開される。
関連論文リスト
- RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [51.86515213749527]
本稿では,多様な実データの自動生成を可能にするスケーラブルなシミュレーションフレームワークであるRoboTwin 2.0を紹介する。
sim-to-real転送を改善するため、RoboTwin 2.0は5つの軸に沿って構造化されたドメインランダム化を組み込んでいる。
このフレームワークは、5つのロボットエボディメントにまたがる50のデュアルアームタスクにまたがってインスタンス化されます。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。
このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。
知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-14T10:19:47Z) - Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。
提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文 参考訳(メタデータ) (2025-04-01T09:22:05Z) - Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models [0.6827423171182154]
Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。
ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。
10トークン未満の小さなチャンクは、精度を31-42%向上させます。
論文 参考訳(メタデータ) (2025-02-21T06:38:57Z) - SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval [0.7421845364041001]
本稿では、意味テキスト検索と知識グラフを統合することにより、RAG検索プロセスを強化する新しい手法であるSKETCHを紹介する。
SKETCHは、p answer_relevancy, faithfulness, context_precision, context_recallといった主要なRAGASメトリクスのベースラインアプローチを一貫して上回っている。
結果は、SKETCHがより正確で文脈的に関連する応答を提供する能力を強調し、将来の検索システムに新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2024-12-19T22:51:56Z) - Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T16:22:32Z) - Reducing and Exploiting Data Augmentation Noise through Meta Reweighting
Contrastive Learning for Text Classification [3.9889306957591755]
本稿では,テキスト分類タスクにおける拡張データ/サンプルを用いたディープラーニングモデルの性能向上のための新しいフレームワークを提案する。
本稿では,拡張サンプルの重み/品質情報を効果的に活用するための,新しい重み依存型列列とデキューアルゴリズムを提案する。
本フレームワークでは,テキストCNNエンコーダの平均1.6%,テキストCNNエンコーダの平均4.3%,RoBERTaベースエンコーダの平均1.4%,絶対改善の4.4%を実現している。
論文 参考訳(メタデータ) (2024-09-26T02:19:13Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。