論文の概要: MetaGen Blended RAG: Unlocking Zero-Shot Precision for Specialized Domain Question-Answering
- arxiv url: http://arxiv.org/abs/2505.18247v2
- Date: Wed, 04 Jun 2025 20:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.50587
- Title: MetaGen Blended RAG: Unlocking Zero-Shot Precision for Specialized Domain Question-Answering
- Title(参考訳): MetaGen Blended RAG:特化ドメイン質問応答のためのゼロショット精度のアンロック
- Authors: Kunal Sawarkar, Shivam R. Solanki, Abhilasha Mangal,
- Abstract要約: 本稿では, セマンティック検索機能を強化した新しいエンタープライズ検索手法である「MetaGen Blended RAG」を紹介する。
重要な概念,トピック,頭字語を活用することで,メタデータに富んだセマンティックインデックスと,ハイブリッドクエリの強化を実現した。
バイオメディカルなPubMedQAデータセットでは、MetaGen Blended RAGが82%の検索精度と77%のRAG精度を実現し、以前のゼロショットRAGベンチマークを上回りました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) struggles with domain-specific enterprise datasets, often isolated behind firewalls and rich in complex, specialized terminology unseen by LLMs during pre-training. Semantic variability across domains like medicine, networking, or law hampers RAG's context precision, while fine-tuning solutions are costly, slow, and lack generalization as new data emerges. Achieving zero-shot precision with retrievers without fine-tuning still remains a key challenge. We introduce 'MetaGen Blended RAG', a novel enterprise search approach that enhances semantic retrievers through a metadata generation pipeline and hybrid query indexes using dense and sparse vectors. By leveraging key concepts, topics, and acronyms, our method creates metadata-enriched semantic indexes and boosted hybrid queries, delivering robust, scalable performance without fine-tuning. On the biomedical PubMedQA dataset, MetaGen Blended RAG achieves 82% retrieval accuracy and 77% RAG accuracy, surpassing all prior zero-shot RAG benchmarks and even rivaling fine-tuned models on that dataset, while also excelling on datasets like SQuAD and NQ. This approach redefines enterprise search using a new approach to building semantic retrievers with unmatched generalization across specialized domains.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、ドメイン固有のエンタープライズデータセットと競合する。
医学、ネットワーク、法的なハマーといった領域間でのセマンティックな変動は、RAGのコンテキスト精度を損なうが、微調整ソリューションはコストが高く、遅く、新しいデータが出現するにつれて一般化が欠如している。
微調整のないレトリバーでゼロショット精度を達成することは、依然として重要な課題である。
本稿では,メタデータ生成パイプラインと疎結合ベクトルを用いたハイブリッドクエリインデックスを通じてセマンティックレトリバーを強化する新しいエンタープライズ検索手法である「MetaGen Blended RAG」を紹介する。
重要な概念,トピック,頭字語を活用することで,メタデータに富んだセマンティックインデックスとハイブリッドクエリの強化を実現し,微調整なしで堅牢でスケーラブルなパフォーマンスを実現する。
バイオメディカルなPubMedQAデータセットでは、MetaGen Blended RAGは82%の検索精度と77%のRAG精度を達成し、以前のゼロショットRAGベンチマークをすべて越え、そのデータセット上の微調整されたモデルにさえ対抗し、SQuADやNQのようなデータセットにも優れている。
このアプローチは、特定のドメインにまたがる未整合の一般化を伴うセマンティックレトリバーを構築するための新しいアプローチを用いて、エンタープライズ検索を再定義する。
関連論文リスト
- Is Large-Scale Pretraining the Secret to Good Domain Generalization? [69.80606575323691]
マルチソース・ドメイン・ジェネリゼーション(Multi-Source Domain Generalization, DG)は、複数のソース・ドメインをトレーニングし、未確認のターゲット・ドメインに対して高い分類性能を達成するタスクである。
最近の手法では、Webスケールの事前訓練されたバックボーンの堅牢な機能と、ソースデータから学んだ新機能を組み合わせることで、ベンチマーク結果を劇的に改善している。
評価されたDGメソッドはすべてDomainBed-OOPで苦労し、最近のメソッドはDomainBed-IPで優れています。
論文 参考訳(メタデータ) (2024-12-03T21:43:11Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Deep Generic Representations for Domain-Generalized Anomalous Sound Detection [10.18337180909434]
ドメイン一般化ASDのためのkNNと組み合わされた大規模事前学習型特徴抽出器の汎用的特徴表現を利用するtextitGenRepを提案する。
textitGenRepは、DCASE2023T2 Evalセットで73.79%のオフィシャルスコアを持つラベル付きデータを必要とせずに、最高のOEベースのアプローチより優れている。
論文 参考訳(メタデータ) (2024-09-08T09:20:30Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、適切に調整された場合、最も複雑なドメイン一般化(DG)手法より優れている。
ERM++は以前のEMMベースラインと比較してDGのパフォーマンスを5%以上改善している。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - Improving Multi-Domain Generalization through Domain Re-labeling [31.636953426159224]
本稿では,事前特定ドメインラベルと一般化性能の関連性について検討する。
マルチドメイン一般化のための一般的なアプローチであるMulDEnsを導入し,ERMをベースとした深層アンサンブルバックボーンを用いた。
我々は、MulDEnsがデータセット固有の拡張戦略やトレーニングプロセスの調整を必要としないことを示す。
論文 参考訳(メタデータ) (2021-12-17T23:21:50Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。