論文の概要: Higress-RAG: A Holistic Optimization Framework for Enterprise Retrieval-Augmented Generation via Dual Hybrid Retrieval, Adaptive Routing, and CRAG
- arxiv url: http://arxiv.org/abs/2602.23374v1
- Date: Tue, 30 Dec 2025 05:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.938569
- Title: Higress-RAG: A Holistic Optimization Framework for Enterprise Retrieval-Augmented Generation via Dual Hybrid Retrieval, Adaptive Routing, and CRAG
- Title(参考訳): Higress-RAG: Dual Hybrid Retrieval, Adaptive Routing, CRAGによるエンタープライズ検索拡張生成のための全体最適化フレームワーク
- Authors: Weixi Lin,
- Abstract要約: Higress RAG MCP Serverは、AIデプロイメントのための、新しいエンタープライズ中心のアーキテクチャである。
システムは適応ルーティング、セマンティックキャッシュ、ハイブリッド検索、修正RAGを編成する。
Systemは、エンタープライズAIデプロイメントのためのスケーラブルで幻覚に強いソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of Large Language Models (LLMs) into enterprise knowledge management systems has been catalyzed by the Retrieval-Augmented Generation (RAG) paradigm, which augments parametric memory with non-parametric external data. However, the transition from proof-of-concept to production-grade RAG systems is hindered by three persistent challenges: low retrieval precision for complex queries, high rates of hallucination in the generation phase, and unacceptable latency for real-time applications. This paper presents a comprehensive analysis of the Higress RAG MCP Server, a novel, enterprise-centric architecture designed to resolve these bottlenecks through a "Full-Link Optimization" strategy. Built upon the Model Context Protocol (MCP), the system introduces a layered architecture that orchestrates a sophisticated pipeline of Adaptive Routing, Semantic Caching, Hybrid Retrieval, and Corrective RAG (CRAG). We detail the technical implementation of key innovations, including the Higress-Native Splitter for structure-aware data ingestion, the application of Reciprocal Rank Fusion (RRF) for merging dense and sparse retrieval signals, and a 50ms-latency Semantic Caching mechanism with dynamic thresholding. Experimental evaluations on domain-specific Higress technical documentation and blogs verify the system's architectural robustness. The results demonstrate that by optimizing the entire retrieval lifecycle - from pre-retrieval query rewriting to post-retrieval corrective evaluation - the Higress RAG system offers a scalable, hallucination-resistant solution for enterprise AI deployment.
- Abstract(参考訳): 企業知識管理システムへのLarge Language Models (LLM) の統合は、非パラメトリック外部データによるパラメトリックメモリの拡張であるRetrieval-Augmented Generation (RAG) パラダイムによって実現されている。
しかし、概念実証から実運用レベルのRAGへの移行は、複雑なクエリの検索精度の低いこと、生成フェーズにおける幻覚率の高いこと、リアルタイムアプリケーションでは許容できないレイテンシという3つの永続的な課題によって妨げられている。
本稿では,Higress RAG MCP Serverを包括的に分析する。このアーキテクチャは,これらのボトルネックを解決するために,"Full-Link Optimization"戦略によって設計された新しいエンタープライズ中心アーキテクチャである。
Model Context Protocol(MCP)に基づいて構築されたこのシステムは、適応ルーティング、セマンティックキャッシュ、ハイブリッド検索、修正RAG(CRAG)の洗練されたパイプラインをオーケストレーションする階層アーキテクチャを導入する。
本稿では,構造を意識したデータ取り込みのためのHigress-Native Splitter,高密度かつスパースな検索信号の統合のためのReciprocal Rank Fusion(RRF)の適用,動的しきい値付き50ms遅延セマンティックキャッシング機構など,重要なイノベーションの技術的実装について述べる。
ドメイン固有のHigress技術ドキュメントとブログに関する実験的評価は、システムのアーキテクチャの堅牢性を検証する。
その結果、検索ライフサイクル全体 - 検索前クエリ書き換えから検索後修正評価に至るまで - を最適化することで、Higress RAGシステムは、エンタープライズAIデプロイメントのためのスケーラブルで幻覚に耐性のあるソリューションを提供する。
関連論文リスト
- Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration [14.88759517020146]
既存のRAGパイプラインは、大規模なエンティティマッチングに適用した場合、かなりの検索と生成オーバーヘッドを発生させる。
本稿では,CE-RAG4EMを導入する。CE-RAG4EMはコスト効率の高いRAGアーキテクチャで,ブロッキングベースのバッチ検索と生成による計算を削減できる。
論文 参考訳(メタデータ) (2026-02-05T14:33:00Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - A Systematic Review of Key Retrieval-Augmented Generation (RAG) Systems: Progress, Gaps, and Future Directions [1.4931265249949528]
Retrieval-Augmented Generation (RAG)は自然言語処理(NLP)における大きな進歩である
RAGは、大規模言語モデル(LLM)と情報検索システムを組み合わせて、事実的根拠付け、正確性、文脈的関連性を高める。
本稿ではRAGの体系的なレビューを行い、最近の最先端実装に対するオープンドメイン質問の早期展開から進化を辿る。
論文 参考訳(メタデータ) (2025-07-25T03:05:46Z) - Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding [2.368662284133926]
本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。
我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。
我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-02T01:16:10Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。