論文の概要: Parametric Knowledge and Retrieval Behavior in RAG Fine-Tuning for Electronic Design Automation
- arxiv url: http://arxiv.org/abs/2603.23047v1
- Date: Tue, 24 Mar 2026 10:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.433772
- Title: Parametric Knowledge and Retrieval Behavior in RAG Fine-Tuning for Electronic Design Automation
- Title(参考訳): 電子設計自動化のためのRAGファインチューニングにおけるパラメトリック知識と検索行動
- Authors: Julian Oestreich, Maximilian Bley, Frank Binder, Lydia Müller, Maksym Sydorenko, André Alcalde,
- Abstract要約: 電子設計自動化における長文テキスト生成のためのRAGファインチューニングの評価を行った。
評価パイプラインTriFEXを紹介する。
ROUGEとBERTScoreは3つの評価結果が示す事実差を検出できないことを示す。
- 参考スコア(独自算出の注目度): 0.18472148461613155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) fine-tuning has shown substantial improvements over vanilla RAG, yet most studies target document question answering and often rely on standard NLP metrics that can obscure factual differences. We evaluate RAG fine-tuning for long-form text generation in electronic design automation, adapting a 7B model under five context augmentation strategies with varying retrieval conditions. We introduce TriFEX, a human-validated, triple-based evaluation pipeline that attributes generated claims to their origin-user query, context and reference-and propose Parametric Knowledge Precision (PKP), which isolates internalized knowledge by filtering out claims leaked in the prompt. We show that ROUGE and BERTScore fail to detect factual differences that our triple-based evaluation reveals. Additionally, we demonstrate that an existing metric for knowledge internalization is retrieva-sensitive, with about 75% of its cross-condition variance driven by changes in the rate at which internal knowledge is expressed (PR), rather than by changes in its actual correctness (PKP). The fine-tuned 7B variants outperform a 72B baseline on most metrics, further showing generalization across conditions and on a related benchmark. These results underscore the limitations of available metrics in RAG evaluation and show that smaller models could be reasonably well adapted to specialized tasks for cost-efficient, on-premises deployment.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)ファインチューニングは、バニラRAGよりも大幅に改善されているが、ほとんどの研究は文書質問応答を目標としており、しばしば標準的なNLPメトリクスに依存している。
電子設計自動化における長文テキスト生成のためのRAG微調整の評価を行い,検索条件の異なる5つの文脈拡張戦略の下で7Bモデルを適用した。
提案するParametric Knowledge Precision(PKP)は,プロンプトに漏れたクレームをフィルタリングすることで,内部知識を分離する。
ROUGEとBERTScoreは3つの評価結果が示す事実差を検出できないことを示す。
さらに,内的知識の表現率の変化(PR)によって引き起こされる条件間差異の約75%は,実際の正しさの変化(PKP)によるものではない。
微調整された7B変種は、ほとんどのメトリクスで72Bベースラインを上回っ、さらに条件や関連するベンチマークにおける一般化を示している。
これらの結果は、RAG評価において利用可能なメトリクスの限界を浮き彫りにして、より小さなモデルは、コスト効率のよいオンプレミスデプロイメントのために、特別なタスクに適当に適応できることを示した。
関連論文リスト
- Reason and Verify: A Framework for Faithful Retrieval-Augmented Generation [0.0]
本稿では,明示的なレアソニングと忠実度検証を統合したドメイン固有RAGフレームワークを提案する。
我々のアーキテクチャは、ニューラルネットワークの書き換え、BGEベースのクロスエンコーダのランク付け、合理生成モジュールによる標準検索を強化する。
我々は、このフレームワークをBioASQとPubMedQAベンチマークで評価し、動的インコンテキスト学習の影響を具体的に分析する。
論文 参考訳(メタデータ) (2026-03-10T18:25:07Z) - Grounding Long-Context Reasoning with Contextual Normalization for Retrieval-Augmented Generation [57.97548022208733]
キー値抽出における表面的選択が精度と安定性のシフトを引き起こすことを示す。
生成前の文脈表現を適応的に標準化する戦略であるコンテキスト正規化を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:28:25Z) - Investigating the Robustness of Retrieval-Augmented Generation at the Query Level [4.3028340012580975]
推論中に外部知識を動的に組み込むソリューションとして、検索拡張生成(RAG)が提案されている。
その約束にもかかわらず、RAGシステムは実際的な課題に直面し、特に、正確な検索のために入力クエリの品質に強く依存する。
論文 参考訳(メタデータ) (2025-07-09T15:39:17Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。
本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。
MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文 参考訳(メタデータ) (2025-04-23T23:05:46Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。