論文の概要: MetaGen Blended RAG: Higher Accuracy for Domain-Specific Q&A Without Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.18247v1
- Date: Fri, 23 May 2025 17:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.30398
- Title: MetaGen Blended RAG: Higher Accuracy for Domain-Specific Q&A Without Fine-Tuning
- Title(参考訳): MetaGen Blended RAG: 微調整のないドメイン特化Q&Aの高精度化
- Authors: Kunal Sawarkar, Shivam R. Solanki, Abhilasha Mangal,
- Abstract要約: 本稿では,ハイブリッドクエリインデックスとメタデータエンリッチメントによるドメイン固有コーパスの検索機能の向上に焦点を当てたエンタープライズ検索手法を提案する。
この'MetaGen Blended RAG'メソッドは、キーコンセプト、トピック、および頭字語を使用してメタデータ生成パイプラインを構築し、その後、検索クエリが強化されたメタデータ強化ハイブリッドインデックスを生成する。
バイオメディカル領域のPubMedQAベンチマークにおいて、提案手法は82%の精度と77%のRAG精度を達成し、微調整なしで以前のRAG精度を全て上回り、ゼロショット結果のベンチマークを新たに設定し、GPT3.5のようなはるかに大きなモデルよりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the widespread exploration of Retrieval-Augmented Generation (RAG), its deployment in enterprises for domain-specific datasets remains limited due to poor answer accuracy. These corpora, often shielded behind firewalls in private enterprise knowledge bases, having complex, domain-specific terminology, rarely seen by LLMs during pre-training; exhibit significant semantic variability across domains (like networking, military, or legal, etc.), or even within a single domain like medicine, and thus result in poor context precision for RAG systems. Currently, in such situations, fine-tuning or RAG with fine-tuning is attempted, but these approaches are slow, expensive, and lack generalization for accuracy as the new domain-specific data emerges. We propose an approach for Enterprise Search that focuses on enhancing the retriever for a domain-specific corpus through hybrid query indexes and metadata enrichment. This 'MetaGen Blended RAG' method constructs a metadata generation pipeline using key concepts, topics, and acronyms, and then creates a metadata-enriched hybrid index with boosted search queries. This approach avoids overfitting and generalizes effectively across domains. On the PubMedQA benchmark for the biomedical domain, the proposed method achieves 82% retrieval accuracy and 77% RAG accuracy, surpassing all previous RAG accuracy results without fine-tuning and sets a new benchmark for zero-shot results while outperforming much larger models like GPT3.5. The results are even comparable to the best fine-tuned models on this dataset, and we further demonstrate the robustness and scalability of the approach by evaluating it on other Q&A datasets like SQuAD, NQ etc.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) の広範な探索にもかかわらず、ドメイン固有のデータセットの企業への展開は、回答の精度が低いために制限されている。
これらのコーパスは、民間の企業知識基盤のファイアウォールの背後に隠蔽され、複雑なドメイン固有の用語を持ち、事前訓練中にLLMではほとんど見られず、ドメイン間の意味的多様性(ネットワーク、軍事、法律など)や、医学のような単一のドメイン内でさえも顕著で、RAGシステムのコンテキスト精度が低くなる。
このような状況下では、細調整のRAGや微調整が試みられているが、これらのアプローチは遅く、高価であり、新しいドメイン固有データが出現するにつれて、精度の一般化が欠如している。
本稿では,ハイブリッドクエリインデックスとメタデータエンリッチメントによるドメイン固有コーパスの検索機能の向上に焦点を当てたエンタープライズ検索のアプローチを提案する。
この'MetaGen Blended RAG'メソッドは、キーコンセプト、トピック、および頭字語を使用してメタデータ生成パイプラインを構築し、その後、検索クエリが強化されたメタデータ強化ハイブリッドインデックスを生成する。
このアプローチはドメイン間のオーバーフィッティングを回避し、効果的に一般化する。
バイオメディカル領域のPubMedQAベンチマークにおいて、提案手法は82%の精度と77%のRAG精度を達成し、微調整なしで以前のRAG精度を全て上回り、ゼロショット結果のベンチマークを新たに設定し、GPT3.5のようなはるかに大きなモデルよりも優れている。
結果は、このデータセット上で最高の微調整モデルに匹敵するものであり、SQuADやNQといった他のQ&Aデータセットで評価することで、このアプローチの堅牢性とスケーラビリティをさらに実証します。
関連論文リスト
- Is Large-Scale Pretraining the Secret to Good Domain Generalization? [69.80606575323691]
マルチソース・ドメイン・ジェネリゼーション(Multi-Source Domain Generalization, DG)は、複数のソース・ドメインをトレーニングし、未確認のターゲット・ドメインに対して高い分類性能を達成するタスクである。
最近の手法では、Webスケールの事前訓練されたバックボーンの堅牢な機能と、ソースデータから学んだ新機能を組み合わせることで、ベンチマーク結果を劇的に改善している。
評価されたDGメソッドはすべてDomainBed-OOPで苦労し、最近のメソッドはDomainBed-IPで優れています。
論文 参考訳(メタデータ) (2024-12-03T21:43:11Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Deep Generic Representations for Domain-Generalized Anomalous Sound Detection [10.18337180909434]
ドメイン一般化ASDのためのkNNと組み合わされた大規模事前学習型特徴抽出器の汎用的特徴表現を利用するtextitGenRepを提案する。
textitGenRepは、DCASE2023T2 Evalセットで73.79%のオフィシャルスコアを持つラベル付きデータを必要とせずに、最高のOEベースのアプローチより優れている。
論文 参考訳(メタデータ) (2024-09-08T09:20:30Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、適切に調整された場合、最も複雑なドメイン一般化(DG)手法より優れている。
ERM++は以前のEMMベースラインと比較してDGのパフォーマンスを5%以上改善している。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - Improving Multi-Domain Generalization through Domain Re-labeling [31.636953426159224]
本稿では,事前特定ドメインラベルと一般化性能の関連性について検討する。
マルチドメイン一般化のための一般的なアプローチであるMulDEnsを導入し,ERMをベースとした深層アンサンブルバックボーンを用いた。
我々は、MulDEnsがデータセット固有の拡張戦略やトレーニングプロセスの調整を必要としないことを示す。
論文 参考訳(メタデータ) (2021-12-17T23:21:50Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。