論文の概要: DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-based Distillation
- arxiv url: http://arxiv.org/abs/2506.01954v1
- Date: Mon, 02 Jun 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.777539
- Title: DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-based Distillation
- Title(参考訳): DRAG: LLM からの SLM の蒸留 RAG による知識の伝達とエビデンスとグラフベースの蒸留による幻覚の緩和
- Authors: Jennifer Chen, Aidar Myrzakhan, Yaxin Luo, Hassaan Muhammad Khan, Sondos Mahmoud Bsharat, Zhiqiang Shen,
- Abstract要約: 我々は、大規模言語モデルから小さなLMにRAG知識を蒸留する新しいフレームワークである$texttDRAG$を紹介した。
提案手法はエビデンスと知識グラフに基づく蒸留を利用して, 蒸留モデルが重要な事実知識を維持しつつ, モデルサイズと計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 18.864913008085377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) methods have proven highly effective for tasks requiring factual consistency and robust knowledge retrieval. However, large-scale RAG systems consume significant computational resources and are prone to generating hallucinated content from Humans. In this work, we introduce $\texttt{DRAG}$, a novel framework for distilling RAG knowledge from large-scale Language Models (LLMs) into small LMs (SLMs). Our approach leverages evidence- and knowledge graph-based distillation, ensuring that the distilled model retains critical factual knowledge while significantly reducing model size and computational cost. By aligning the smaller model's predictions with a structured knowledge graph and ranked evidence, $\texttt{DRAG}$ effectively mitigates hallucinations and improves factual accuracy. We further present a case demonstrating how our framework mitigates user privacy risks and introduce a corresponding benchmark. Experimental evaluations on multiple benchmarks demonstrate that our method outperforms the prior competitive RAG methods like MiniRAG for SLMs by up to 27.7% using the same models, preserving high-level efficiency and reliability. With $\texttt{DRAG}$, we provide a practical and resource-efficient roadmap to deploying enhanced retrieval and generation capabilities in small-sized LLMs.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) 法は, 事実整合性や堅牢な知識検索を必要とするタスクに対して, 極めて効果的であることが証明されている。
しかし,大規模RAGシステムは計算資源を消費し,人体から幻覚コンテンツを生成する傾向にある。
本稿では,大規模言語モデル(LLM)から小規模LM(SLM)へRAG知識を蒸留する新しいフレームワークである$\texttt{DRAG}$を紹介する。
提案手法はエビデンスと知識グラフに基づく蒸留を利用して, 蒸留したモデルが重要な事実知識を維持しつつ, モデルサイズと計算コストを大幅に削減する。
より小さなモデルの予測を構造化された知識グラフとランク付けされた証拠に合わせることで、$\texttt{DRAG}$は幻覚を効果的に緩和し、事実の精度を向上させる。
さらに,私たちのフレームワークがユーザのプライバシリスクを軽減し,対応するベンチマークを導入する方法を示す。
複数のベンチマーク実験により,本手法はSLM用MiniRAGなどの従来の競合RAG法よりも27.7%向上し,高レベルの効率と信頼性が保たれた。
$\texttt{DRAG}$で、小型のLLMで拡張された検索と生成機能をデプロイするための実用的でリソース効率の良いロードマップを提供する。
関連論文リスト
- LLMQuoter: Enhancing RAG Capabilities Through Efficient Quote Extraction From Large Contexts [2.685668802278156]
LLMQuoterは、レトリーバル拡張生成(RAG)を強化するために設計された軽量蒸留モデルである。
LLaMA-3Bアーキテクチャをベースとして、HotpotQAの15,000サンプルのサブセット上にLoRA(Lo-Rank Adaptation)を微調整し、LLMQuoterは"quote-first-then-answer"戦略を採用し、キュレートされたスニペットを推論モデルに渡す前に重要な引用を効率的に識別する。
このワークフローは認知的オーバーヘッドを減らし、Retrieval-Augmented Fine-Tuning (RAFT)のようなフルコンテキストアプローチを上回り、小言語と大言語の両方で20ポイント以上の精度向上を達成する。
論文 参考訳(メタデータ) (2025-01-09T20:01:15Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。
本稿では,RAGの利益と有害性を説明するための理論を提供する。
提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-03T02:56:14Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。