論文の概要: Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data
- arxiv url: http://arxiv.org/abs/2507.12425v1
- Date: Wed, 16 Jul 2025 17:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.48839
- Title: Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data
- Title(参考訳): 構造的企業データと内部データのための検索機能強化
- Authors: Chandana Cheerla,
- Abstract要約: 大きな言語モデル(LLM)は強力な生成能力を持つ。
静的事前トレーニング、短いコンテキストウィンドウ、および異種データフォーマットを処理する際の課題によって制限されている。
従来のRetrieval-Augmented Generation (RAG) フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations increasingly rely on proprietary enterprise data, including HR records, structured reports, and tabular documents, for critical decision-making. While Large Language Models (LLMs) have strong generative capabilities, they are limited by static pretraining, short context windows, and challenges in processing heterogeneous data formats. Conventional Retrieval-Augmented Generation (RAG) frameworks address some of these gaps but often struggle with structured and semi-structured data. This work proposes an advanced RAG framework that combines hybrid retrieval strategies using dense embeddings (all-mpnet-base-v2) and BM25, enhanced by metadata-aware filtering with SpaCy NER and cross-encoder reranking. The framework applies semantic chunking to maintain textual coherence and retains tabular data structures to preserve row-column integrity. Quantized indexing optimizes retrieval efficiency, while human-in-the-loop feedback and conversation memory improve adaptability. Experiments on enterprise datasets show notable improvements: Precision@5 increased by 15 percent (90 versus 75), Recall@5 by 13 percent (87 versus 74), and Mean Reciprocal Rank by 16 percent (0.85 versus 0.69). Qualitative evaluations show higher scores in Faithfulness (4.6 versus 3.0), Completeness (4.2 versus 2.5), and Relevance (4.5 versus 3.2) on a 5-point Likert scale. These results demonstrate the framework's effectiveness in delivering accurate, comprehensive, and contextually relevant responses for enterprise tasks. Future work includes extending to multimodal data and integrating agent-based retrieval. The source code will be released at https://github.com/CheerlaChandana/Enterprise-Chatbot
- Abstract(参考訳): 組織は批判的な意思決定のために、人事記録、構造化レポート、表形式の文書など、プロプライエタリな企業データにますます依存している。
大きな言語モデル(LLM)は強力な生成能力を持つが、静的事前トレーニング、短いコンテキストウィンドウ、異種データフォーマットを処理する際の課題によって制限される。
従来のRetrieval-Augmented Generation (RAG)フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
このフレームワークは、テキストコヒーレンスを維持するためにセマンティックチャンキングを適用し、行列の整合性を維持するために表形式のデータ構造を保持する。
量子索引付けは検索効率を最適化し、ヒューマン・イン・ザ・ループのフィードバックと会話メモリは適応性を改善する。
エンタープライズデータセットの実験では、Precision@5が15%(90対75)、Recall@5が13%(87対74)、Mean Reciprocal Rankが16%(0.85対0.69)向上した。
質的な評価では、Fithfulness(4.6対3.0)、Completeness(4.2対2.5)、Relevance(4.5対3.2)のスコアが5ポイントのLikertスケールで高い。
これらの結果は、このフレームワークがエンタープライズタスクに対して正確で包括的でコンテキストに関連のある応答を提供する上での有効性を示すものである。
今後の作業には、マルチモーダルデータの拡張とエージェントベースの検索の統合が含まれる。
ソースコードはhttps://github.com/CheerlaChandana/Enterprise-Chatbotで公開される。
関連論文リスト
- Evaluating Retrieval-Augmented Generation Variants for Natural Language-Based SQL and API Call Generation [0.6117371161379209]
大規模言語モデル(LLM)は、コード生成の約束を示すが、ドメイン固有のエンタープライズコンテキストにおけるそれらの有効性はまだ未調査である。
本稿では,3種類のRAGを総合的に評価する。
本研究は,生産級自然言語インタフェースの重要な決定要因として,検索政治設計を確立した。
論文 参考訳(メタデータ) (2026-02-06T08:37:06Z) - CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory [19.64051996386645]
CREAMは、メモリベースの連続検索のための自己教師型フレームワークである。
教師なしの環境では、目に見えないトピックと見えないトピックの両方に適応します。
2つのベンチマークデータセットの実験は、CREAMが優れた適応性と精度を示すことを示した。
論文 参考訳(メタデータ) (2026-01-06T04:47:49Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - A Systematic Framework for Enterprise Knowledge Retrieval: Leveraging LLM-Generated Metadata to Enhance RAG Systems [0.0]
本研究では,大規模言語モデル(LLM)を用いたメタデータ強化のための体系的フレームワークを提案する。
提案手法では,文書セグメントに意味のあるメタデータを動的に生成する包括的,構造化されたパイプラインを用いる。
論文 参考訳(メタデータ) (2025-12-05T04:05:06Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - AgentExpt: Automating AI Experiment Design with LLM-based Resource Retrieval Agent [36.65355075707938]
AI研究における重要な応用の1つは、エージェントとベースライン検索による実験設計を自動化することである。
ベースラインおよびデータセットレコメンデーションのための包括的フレームワークを提案する。
我々は、正確な相互作用連鎖を構築して明確な推論連鎖を構築し、解釈可能な正当化を生成するために大きな言語モデルを微調整する推論強化リランカを開発する。
論文 参考訳(メタデータ) (2025-11-07T01:51:56Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [51.86515213749527]
本稿では,多様な実データの自動生成を可能にするスケーラブルなシミュレーションフレームワークであるRoboTwin 2.0を紹介する。
sim-to-real転送を改善するため、RoboTwin 2.0は5つの軸に沿って構造化されたドメインランダム化を組み込んでいる。
このフレームワークは、5つのロボットエボディメントにまたがる50のデュアルアームタスクにまたがってインスタンス化されます。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。
このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。
知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-14T10:19:47Z) - Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。
提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文 参考訳(メタデータ) (2025-04-01T09:22:05Z) - Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models [0.6827423171182154]
Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。
ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。
10トークン未満の小さなチャンクは、精度を31-42%向上させます。
論文 参考訳(メタデータ) (2025-02-21T06:38:57Z) - SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval [0.7421845364041001]
本稿では、意味テキスト検索と知識グラフを統合することにより、RAG検索プロセスを強化する新しい手法であるSKETCHを紹介する。
SKETCHは、p answer_relevancy, faithfulness, context_precision, context_recallといった主要なRAGASメトリクスのベースラインアプローチを一貫して上回っている。
結果は、SKETCHがより正確で文脈的に関連する応答を提供する能力を強調し、将来の検索システムに新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2024-12-19T22:51:56Z) - Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T16:22:32Z) - Reducing and Exploiting Data Augmentation Noise through Meta Reweighting
Contrastive Learning for Text Classification [3.9889306957591755]
本稿では,テキスト分類タスクにおける拡張データ/サンプルを用いたディープラーニングモデルの性能向上のための新しいフレームワークを提案する。
本稿では,拡張サンプルの重み/品質情報を効果的に活用するための,新しい重み依存型列列とデキューアルゴリズムを提案する。
本フレームワークでは,テキストCNNエンコーダの平均1.6%,テキストCNNエンコーダの平均4.3%,RoBERTaベースエンコーダの平均1.4%,絶対改善の4.4%を実現している。
論文 参考訳(メタデータ) (2024-09-26T02:19:13Z) - Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented Generation [96.78845113346809]
Retrieval-augmented Language Model (RALMs) は、知識集約型タスクにおいて、高い性能と幅広い適用性を示している。
本稿では,非偽文の検出に微細な復号力学を利用する軽量モニタであるSynCheckを提案する。
また、長文検索拡張生成のためのビームサーチによって導かれる忠実度指向の復号アルゴリズムであるFODを導入する。
論文 参考訳(メタデータ) (2024-06-19T16:42:57Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。