Fugu-MT 論文翻訳(概要): Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models

論文の概要: Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models

arxiv url: http://arxiv.org/abs/2502.15854v1
Date: Fri, 21 Feb 2025 06:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.832382
Title: Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models
Title（参考訳）: ドメイン特化検索強化生成の強化:推論モデルを用いた合成データ生成と評価
Authors: Aryan Jadon, Avinash Patil, Shashank Kumar,
Abstract要約: Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。 10トークン未満の小さなチャンクは、精度を31-42%向上させます。
参考スコア（独自算出の注目度）: 0.6827423171182154
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) systems face significant performance gaps when applied to technical domains requiring precise information extraction from complex documents. Current evaluation methodologies relying on document-level metrics inadequately capture token-resolution retrieval accuracy that is critical for domain-related documents. We propose a framework combining granular evaluation metrics with synthetic data generation to optimize domain-specific RAG performance. First, we introduce token-aware metrics Precision $\Omega$ and Intersection-over-Union (IoU) that quantify context preservation versus information density trade-offs inherent in technical texts. Second, we develop a reasoning model-driven pipeline using instruction-tuned LLMs (DeepSeek-R1, DeepSeek-R1 distilled variants, and Phi-4) to generate context-anchored QA pairs with discontinuous reference spans across three specialized corpora: SEC 10-K filings (finance), biomedical abstracts (PubMed), and APT threat reports (cybersecurity). Our empirical analysis reveals critical insights: smaller chunks (less than 10 tokens) improve precision by 31-42% (IoU = 0.071 vs. baseline 0.053) at recall costs (-18%), while domain-specific embedding strategies yield 22% variance in optimal chunk sizing (5-20 tokens). The DeepSeek-R1-Distill-Qwen-32B model demonstrates superior concept alignment (+14% mean IoU over alternatives), though no configuration universally dominates. Financial texts favor larger chunks for risk factor coverage (Recall = 0.81 at size = 20), whereas cybersecurity content benefits from atomic segmentation, Precision $\Omega = 0.28$ at size = 5. Our code is available on https://github.com/aryan-jadon/Synthetic-Data-Generation-and-Evaluation-using-Reasoning-Model
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) システムは、複雑な文書から正確な情報抽出を必要とする技術領域に適用した場合、大きなパフォーマンスギャップに直面している。文書レベルのメトリクスに依存する現在の評価手法は、ドメイン関連文書にとって重要なトークン分解能の精度が不十分である。ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。まず、技術的テキストに固有の情報密度トレードオフに対してコンテキスト保存を定量化するトークン対応メトリクスPrecision $\Omega$とIntersection-over-Union (IoU)を導入する。第2に、命令調整LDM(DeepSeek-R1、DeepSeek-R1蒸留変種、Phi-4)を用いて、SEC 10-K ファイリング(ファイナンス)、バイオメディカル・抽象(PubMed)、APT 脅威レポート(サイバーセキュリティ)という3つの特別なコーパスにまたがる不連続参照を持つコンテキスト調整QAペアを生成する推論モデル駆動パイプラインを開発する。我々の経験的分析では、小さなチャンク(10トークン未満)はリコールコスト(18%)で31-42%の精度(IoU = 0.071 vs. ベースライン0.053)を向上し、ドメイン固有の埋め込み戦略は最適なチャンクサイズ(5〜20トークン)で22%のばらつきをもたらす。 DeepSeek-R1-Distill-Qwen-32Bモデルは、より優れたコンセプトアライメント(+14%は代替案よりもIoUを意味する)を示すが、構成は普遍的に支配的ではない。一方、サイバーセキュリティコンテンツは、原子セグメンテーションの恩恵を受けており、Precision $\Omega = 0.28$ at size = 5である。私たちのコードはhttps://github.com/aryan-jadon/Synthetic-Data-Generation-and-Evaluation-using-Reasoning-Modelで利用可能です。

関連論文リスト

Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data [0.0]
大きな言語モデル(LLM)は強力な生成能力を持つ。静的事前トレーニング、短いコンテキストウィンドウ、および異種データフォーマットを処理する際の課題によって制限されている。従来のRetrieval-Augmented Generation (RAG) フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-16T17:13:06Z)
Multi-Granular Discretization for Interpretable Generalization in Precise Cyberattack Identification [0.0]
解釈可能な一般化(IG)メカニズムはコヒーレントパターンの学習に使用される。 IG-MDはいくつかのガウスの解像度で全ての連続的な特徴を表す。 UKM-IDS20では、IG-MDは9回の列車試験で4ポイント以上の精度を引き上げている。
論文参考訳（メタデータ） (2025-07-16T12:57:38Z)
Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains [13.58151841630302]
本稿では,RAGにおける再ランク付けを合理的な選択手法で置き換える新しい方法であるMETEORAを提案する。 METEORAは、最先端の再評価手法よりも約50%少ないチャンクを使用しながら、生成精度を33.34%向上させる。敵対的な設定では、METEORAはF1スコアを0.10から0.44に大幅に改善する。
論文参考訳（メタデータ） (2025-05-21T20:57:16Z)
PCA-RAG: Principal Component Analysis for Efficient Retrieval-Augmented Generation [0.0]
高次元言語モデル埋め込みは、ストレージとレイテンシの観点からスケーラビリティの課題を提示することができる。本稿では,主成分分析(PCA)を用いた埋め込み次元の低減について検討する。そこで本研究では,PCAに基づく圧縮により,検索精度と資源効率のバランスがとれることを示す。
論文参考訳（メタデータ） (2025-04-11T09:38:12Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
Claim Extraction for Fact-Checking: Data, Models, and Automated Metrics [0.0]
FEVERFactデータセットを公開し、4Kの文脈化されたウィキペディア文から17Kの原子的事実クレームを抽出した。各メトリクスに対して、既に探索されたNLPタスクへの還元を用いてスケールを実装する。我々の最も難しい指標である$F_fact$のランク付けされたモデルが変化しないことを確認するため、一般的なクレームの人間のグレーティングに対してメトリクスを検証する。
論文参考訳（メタデータ） (2025-02-07T14:20:45Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
Certifiably Robust Model Evaluation in Federated Learning under Meta-Distributional Shifts [8.700087812420687]
異なるネットワーク "B" 上でモデルの性能を保証する。我々は、原則付きバニラDKWバウンダリが、同じ(ソース)ネットワーク内の未確認クライアント上で、モデルの真のパフォーマンスの認証を可能にする方法を示す。
論文参考訳（メタデータ） (2024-10-26T18:45:15Z)
Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文参考訳（メタデータ） (2024-05-30T11:46:42Z)
Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文参考訳（メタデータ） (2024-02-06T18:59:30Z)
Beyond Accuracy: Automated De-Identification of Large Real-World Clinical Text Datasets [7.6631083158336715]
本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
論文参考訳（メタデータ） (2023-12-13T20:15:29Z)
Revisiting Evaluation Metrics for Semantic Segmentation: Optimization and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文参考訳（メタデータ） (2023-10-30T03:45:15Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
Bridging the Domain Gaps in Context Representations for k-Nearest Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-05-26T03:04:42Z)
Out-of-Vocabulary Entities in Link Prediction [1.9036571490366496]
リンク予測はしばしば、埋め込みの品質を評価するプロキシとして使用される。ベンチマークはアルゴリズムの公正な比較に欠かせないため、より良いソリューションを開発するための確固たる基盤を提供するため、その品質が確実に確保される。我々は、そのようなエンティティの発見と削除のためのアプローチの実装を提供し、データセットWN18RR、FB15K-237、YAGO3-10の修正版を提供する。
論文参考訳（メタデータ） (2021-05-26T12:58:18Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。