論文の概要: Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models
- arxiv url: http://arxiv.org/abs/2502.15854v1
- Date: Fri, 21 Feb 2025 06:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:22.064072
- Title: Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models
- Title(参考訳): ドメイン特化検索強化生成の強化:推論モデルを用いた合成データ生成と評価
- Authors: Aryan Jadon, Avinash Patil, Shashank Kumar,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。
ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。
10トークン未満の小さなチャンクは、精度を31-42%向上させます。
- 参考スコア(独自算出の注目度): 0.6827423171182154
- License:
- Abstract: Retrieval-Augmented Generation (RAG) systems face significant performance gaps when applied to technical domains requiring precise information extraction from complex documents. Current evaluation methodologies relying on document-level metrics inadequately capture token-resolution retrieval accuracy that is critical for domain-related documents. We propose a framework combining granular evaluation metrics with synthetic data generation to optimize domain-specific RAG performance. First, we introduce token-aware metrics Precision $\Omega$ and Intersection-over-Union (IoU) that quantify context preservation versus information density trade-offs inherent in technical texts. Second, we develop a reasoning model-driven pipeline using instruction-tuned LLMs (DeepSeek-R1, DeepSeek-R1 distilled variants, and Phi-4) to generate context-anchored QA pairs with discontinuous reference spans across three specialized corpora: SEC 10-K filings (finance), biomedical abstracts (PubMed), and APT threat reports (cybersecurity). Our empirical analysis reveals critical insights: smaller chunks (less than 10 tokens) improve precision by 31-42% (IoU = 0.071 vs. baseline 0.053) at recall costs (-18%), while domain-specific embedding strategies yield 22% variance in optimal chunk sizing (5-20 tokens). The DeepSeek-R1-Distill-Qwen-32B model demonstrates superior concept alignment (+14% mean IoU over alternatives), though no configuration universally dominates. Financial texts favor larger chunks for risk factor coverage (Recall = 0.81 at size = 20), whereas cybersecurity content benefits from atomic segmentation, Precision $\Omega = 0.28$ at size = 5. Our code is available on https://github.com/aryan-jadon/Synthetic-Data-Generation-and-Evaluation-using-Reasoning-Model
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、複雑な文書から正確な情報抽出を必要とする技術領域に適用した場合、大きなパフォーマンスギャップに直面している。
文書レベルのメトリクスに依存する現在の評価手法は、ドメイン関連文書にとって重要なトークン分解能の精度が不十分である。
ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。
まず、技術的テキストに固有の情報密度トレードオフに対してコンテキスト保存を定量化するトークン対応メトリクスPrecision $\Omega$とIntersection-over-Union (IoU)を導入する。
第2に、命令調整LDM(DeepSeek-R1、DeepSeek-R1蒸留変種、Phi-4)を用いて、SEC 10-K ファイリング(ファイナンス)、バイオメディカル・抽象(PubMed)、APT 脅威レポート(サイバーセキュリティ)という3つの特別なコーパスにまたがる不連続参照を持つコンテキスト調整QAペアを生成する推論モデル駆動パイプラインを開発する。
我々の経験的分析では、小さなチャンク(10トークン未満)はリコールコスト(18%)で31-42%の精度(IoU = 0.071 vs. ベースライン0.053)を向上し、ドメイン固有の埋め込み戦略は最適なチャンクサイズ(5〜20トークン)で22%のばらつきをもたらす。
DeepSeek-R1-Distill-Qwen-32Bモデルは、より優れたコンセプトアライメント(+14%は代替案よりもIoUを意味する)を示すが、構成は普遍的に支配的ではない。
一方、サイバーセキュリティコンテンツは、原子セグメンテーションの恩恵を受けており、Precision $\Omega = 0.28$ at size = 5である。
私たちのコードはhttps://github.com/aryan-jadon/Synthetic-Data-Generation-and-Evaluation-using-Reasoning-Modelで利用可能です。
関連論文リスト
- Claim Extraction for Fact-Checking: Data, Models, and Automated Metrics [0.0]
FEVERFactデータセットを公開し、4Kの文脈化されたウィキペディア文から17Kの原子的事実クレームを抽出した。
各メトリクスに対して、既に探索されたNLPタスクへの還元を用いてスケールを実装する。
我々の最も難しい指標である$F_fact$のランク付けされたモデルが変化しないことを確認するため、一般的なクレームの人間のグレーティングに対してメトリクスを検証する。
論文 参考訳(メタデータ) (2025-02-07T14:20:45Z) - Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。
本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文 参考訳(メタデータ) (2024-10-11T17:57:16Z) - Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。
本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。
我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文 参考訳(メタデータ) (2024-05-30T11:46:42Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets [7.6631083158336715]
本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。
完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
論文 参考訳(メタデータ) (2023-12-13T20:15:29Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Out-of-Vocabulary Entities in Link Prediction [1.9036571490366496]
リンク予測はしばしば、埋め込みの品質を評価するプロキシとして使用される。
ベンチマークはアルゴリズムの公正な比較に欠かせないため、より良いソリューションを開発するための確固たる基盤を提供するため、その品質が確実に確保される。
我々は、そのようなエンティティの発見と削除のためのアプローチの実装を提供し、データセットWN18RR、FB15K-237、YAGO3-10の修正版を提供する。
論文 参考訳(メタデータ) (2021-05-26T12:58:18Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。