論文の概要: MetaGen Blended RAG: Unlocking Zero-Shot Precision for Specialized Domain Question-Answering
- arxiv url: http://arxiv.org/abs/2505.18247v3
- Date: Tue, 05 Aug 2025 17:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.256831
- Title: MetaGen Blended RAG: Unlocking Zero-Shot Precision for Specialized Domain Question-Answering
- Title(参考訳): MetaGen Blended RAG:特化ドメイン質問応答のためのゼロショット精度のアンロック
- Authors: Kunal Sawarkar, Shivam R. Solanki, Abhilasha Mangal,
- Abstract要約: 本稿では, セマンティック検索機能を強化した新しいエンタープライズ検索手法である「MetaGen Blended RAG」を紹介する。
重要な概念,トピック,頭字語を活用することで,メタデータに富んだセマンティックインデックスと,ハイブリッドクエリの強化を実現した。
バイオメディカルなPubMedQAデータセットでは、MetaGen Blended RAGが82%の検索精度と77%のRAG精度を実現し、以前のゼロショットRAGベンチマークを上回りました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) struggles with domain-specific enterprise datasets, often isolated behind firewalls and rich in complex, specialized terminology unseen by LLMs during pre-training. Semantic variability across domains like medicine, networking, or law hampers RAG's context precision, while fine-tuning solutions are costly, slow, and lack generalization as new data emerges. Achieving zero-shot precision with retrievers without fine-tuning still remains a key challenge. We introduce 'MetaGen Blended RAG', a novel enterprise search approach that enhances semantic retrievers through a metadata generation pipeline and hybrid query indexes using dense and sparse vectors. By leveraging key concepts, topics, and acronyms, our method creates metadata-enriched semantic indexes and boosted hybrid queries, delivering robust, scalable performance without fine-tuning. On the biomedical PubMedQA dataset, MetaGen Blended RAG achieves 82% retrieval accuracy and 77% RAG accuracy, surpassing all prior zero-shot RAG benchmarks and even rivaling fine-tuned models on that dataset, while also excelling on datasets like SQuAD and NQ. This approach redefines enterprise search using a new approach to building semantic retrievers with unmatched generalization across specialized domains.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、ドメイン固有のエンタープライズデータセットと競合する。
医学、ネットワーク、法的なハマーといった領域間でのセマンティックな変動は、RAGのコンテキスト精度を損なうが、微調整ソリューションはコストが高く、遅く、新しいデータが出現するにつれて一般化が欠如している。
微調整のないレトリバーでゼロショット精度を達成することは、依然として重要な課題である。
本稿では,メタデータ生成パイプラインと疎結合ベクトルを用いたハイブリッドクエリインデックスを通じてセマンティックレトリバーを強化する新しいエンタープライズ検索手法である「MetaGen Blended RAG」を紹介する。
重要な概念,トピック,頭字語を活用することで,メタデータに富んだセマンティックインデックスとハイブリッドクエリの強化を実現し,微調整なしで堅牢でスケーラブルなパフォーマンスを実現する。
バイオメディカルなPubMedQAデータセットでは、MetaGen Blended RAGは82%の検索精度と77%のRAG精度を達成し、以前のゼロショットRAGベンチマークをすべて越え、そのデータセット上の微調整されたモデルにさえ対抗し、SQuADやNQのようなデータセットにも優れている。
このアプローチは、特定のドメインにまたがる未整合の一般化を伴うセマンティックレトリバーを構築するための新しいアプローチを用いて、エンタープライズ検索を再定義する。
関連論文リスト
- RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation [45.679455112940175]
Retrieval-augmented Generation (RAG)は、推論時に取得した外部知識を統合することにより、大規模言語モデル(LLM)を強化する。
我々は,知識の混合を伴う大規模データストアであるMassiveDSを用いてRAGシステムを評価し,限界点を特定した。
論文 参考訳(メタデータ) (2025-07-26T20:57:24Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text [11.417612899344697]
セキュリティテキストにおける敵のテクニックの正確な識別は、効果的なサイバー防御に不可欠である。
既存のメソッドは基本的なトレードオフに直面している。ドメインの精度が限られているジェネリックモデルに依存するか、リソース集約的なパイプラインを必要とする。
本稿では,このギャップを埋めるドメイン固有検索拡張生成(RAG)フレームワークであるTechnologyRAGを提案する。
論文 参考訳(メタデータ) (2025-05-17T12:46:10Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - LevelRAG: Enhancing Retrieval-Augmented Generation with Multi-hop Logic Planning over Rewriting Augmented Searchers [24.01783076521377]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための重要な方法である
既存のRAGメソッドは通常、検索範囲を広げるためにハイブリッド検索を使用しながら、ユーザ意図を明確にし、マルチホップロジックを管理するためにクエリ書き換えを使用する。
本稿では,複雑なクエリをアトミックなクエリに分解する高レベル検索手法を提案する。
高精度なキーワード検索にスパース検索の長所を利用するために,Lucene構文を用いて検索精度を向上させるスパース検索手法を開発した。
論文 参考訳(メタデータ) (2025-02-25T12:09:16Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。
RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。
本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文 参考訳(メタデータ) (2025-01-06T01:07:59Z) - Is Large-Scale Pretraining the Secret to Good Domain Generalization? [69.80606575323691]
マルチソース・ドメイン・ジェネリゼーション(Multi-Source Domain Generalization, DG)は、複数のソース・ドメインをトレーニングし、未確認のターゲット・ドメインに対して高い分類性能を達成するタスクである。
最近の手法では、Webスケールの事前訓練されたバックボーンの堅牢な機能と、ソースデータから学んだ新機能を組み合わせることで、ベンチマーク結果を劇的に改善している。
評価されたDGメソッドはすべてDomainBed-OOPで苦労し、最近のメソッドはDomainBed-IPで優れています。
論文 参考訳(メタデータ) (2024-12-03T21:43:11Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Deep Generic Representations for Domain-Generalized Anomalous Sound Detection [10.18337180909434]
ドメイン一般化ASDのためのkNNと組み合わされた大規模事前学習型特徴抽出器の汎用的特徴表現を利用するtextitGenRepを提案する。
textitGenRepは、DCASE2023T2 Evalセットで73.79%のオフィシャルスコアを持つラベル付きデータを必要とせずに、最高のOEベースのアプローチより優れている。
論文 参考訳(メタデータ) (2024-09-08T09:20:30Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、適切に調整された場合、最も複雑なドメイン一般化(DG)手法より優れている。
ERM++は以前のEMMベースラインと比較してDGのパフォーマンスを5%以上改善している。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - Improving Multi-Domain Generalization through Domain Re-labeling [31.636953426159224]
本稿では,事前特定ドメインラベルと一般化性能の関連性について検討する。
マルチドメイン一般化のための一般的なアプローチであるMulDEnsを導入し,ERMをベースとした深層アンサンブルバックボーンを用いた。
我々は、MulDEnsがデータセット固有の拡張戦略やトレーニングプロセスの調整を必要としないことを示す。
論文 参考訳(メタデータ) (2021-12-17T23:21:50Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。