論文の概要: Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment
- arxiv url: http://arxiv.org/abs/2603.25737v1
- Date: Thu, 26 Mar 2026 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.430221
- Title: Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment
- Title(参考訳): Evidence Distillation と Write-Back Enrichment による知識基盤の育成
- Authors: Yuxing Lu, Xukai Zhao, Wei Wu, Jinzhuo Wang,
- Abstract要約: 知識ベースはトレーニング可能なコンポーネントとして扱われるべきである、と我々は主張する。
本稿では,ラベル付き例を用いて検索が成功する場所を特定するフレームワークWriteBack-RAGを提案する。
この方法はコーパスのみを変更するため、オフライン前処理ステップとして一度適用することができる。
- 参考スコア(独自算出の注目度): 15.617939445454278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The knowledge base in a retrieval-augmented generation (RAG) system is typically assembled once and never revised, even though the facts a query requires are often fragmented across documents and buried in irrelevant content. We argue that the knowledge base should be treated as a trainable component and propose WriteBack-RAG, a framework that uses labeled examples to identify where retrieval succeeds, isolate the relevant documents, and distill them into compact knowledge units that are indexed alongside the original corpus. Because the method modifies only the corpus, it can be applied once as an offline preprocessing step and combined with any RAG pipeline. Across four RAG methods, six benchmarks, and two LLM backbones, WriteBack-RAG improves every evaluated setting, with gains averaging +2.14%. Cross-method transfer experiments further show that the distilled knowledge benefits RAG pipelines other than the one used to produce it, confirming that the improvement resides in the corpus itself.
- Abstract(参考訳): 検索強化世代(RAG)システムの知識基盤は、典型的には一度も組み立てられ、更新されることはないが、クエリが要求する事実は文書間で断片化され、無関係な内容に埋もれていることが多い。
我々は、知識ベースをトレーニング可能なコンポーネントとして扱うべきであると論じ、ラベル付き例を用いて検索の成功した場所を特定し、関連文書を分離し、元のコーパスと一緒にインデックス付けされたコンパクトな知識単位に蒸留するフレームワークWriteBack-RAGを提案する。
この方法はコーパスのみを変更するため、オフライン前処理ステップとして一度適用し、任意のRAGパイプラインと組み合わせることができる。
4つのRAGメソッド、6つのベンチマーク、2つのLCMバックボーンでWriteBack-RAGは評価されたすべての設定を改善し、平均2.14%のゲインを得た。
クロスメタルトランスファー実験により、蒸留した知識は、製造に使われたもの以外のRAGパイプラインに利益をもたらし、改善がコーパス自体に存在することが確認された。
関連論文リスト
- AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - A Benchmark for Procedural Memory Retrieval in Language Agents [0.023227405857540805]
現在のAIエージェントは、慣れ親しんだ設定で優れていますが、目に見えないProcで新しいタスクに直面したとき、急激に失敗します。
タスク実行から手続き的メモリ検索を分離する最初のベンチマークを示す。
埋め込み型手法は、慣れ親しんだ文脈で強く機能するが、新規な手法では著しく劣化する。
論文 参考訳(メタデータ) (2025-11-21T08:08:53Z) - Enhanced document retrieval with topic embeddings [0.0]
文書検索システムは、検索強化世代(RAG)の出現にともなって、再活性化された関心を経験してきた。
RAGアーキテクチャはLLMのみのアプリケーションよりも幻覚率が低い。
我々は文書の話題情報を考慮した新しいベクトル化手法を考案した。
論文 参考訳(メタデータ) (2024-08-19T22:01:45Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。