論文の概要: Finetune-RAG: Fine-Tuning Language Models to Resist Hallucination in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.10792v2
- Date: Mon, 19 May 2025 01:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.180532
- Title: Finetune-RAG: Fine-Tuning Language Models to Resist Hallucination in Retrieval-Augmented Generation
- Title(参考訳): ファインチューンRAG:検索・拡張世代における幻覚を補う微調整言語モデル
- Authors: Zhan Peng Lee, Andre Lin, Calvin Tan,
- Abstract要約: Finetune-RAGは、現実世界の欠陥を模倣するために構築されたトレーニングデータセットである。
ファインチューンRAGは、ベースモデルよりも21.2%精度が向上する。
Bench-RAGは、現実的な不完全な検索シナリオ下でテストモデルを強調する評価パイプラインである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful framework to improve factuality in large language models (LLMs) by grounding their outputs in retrieved documents. However, ensuring perfect retrieval of relevant information remains challenging, and when irrelevant content is passed downstream to an LLM, it can lead to hallucinations. In this work, we propose Finetune-RAG, a simple and effective fine-tuning approach that features the first-of-its-kind RAG training dataset constructed to mimic real-world imperfections. Experimental results show that Finetune-RAG improves factual accuracy by 21.2% over the base model. We also propose Bench-RAG, an LLM-as-a-judge evaluation pipeline that stress tests models under realistic imperfect retrieval scenarios. Our codebase and dataset are fully open sourced for community use.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は,大規模言語モデル (LLM) における実写性を改善するための強力なフレームワークとして,検索した文書の出力を基礎にしている。
しかし、関連情報の完全検索は依然として困難であり、無関係なコンテンツがLLMに下流に渡される場合、幻覚につながる可能性がある。
本研究では,実世界の不完全性を模倣するために構築された第一種RAGトレーニングデータセットを特徴とする,シンプルで効果的な微調整手法であるFinetune-RAGを提案する。
実験の結果、ファインチューンRAGはベースモデルよりも21.2%精度が向上していることがわかった。
また,LLM-as-a-judge評価パイプラインであるBench-RAGを提案する。
コードベースとデータセットは、コミュニティ利用のために完全にオープンソースです。
関連論文リスト
- Bi'an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation [6.549143816134529]
bftextBi'anはバイリンガルベンチマークデータセットと軽量判定モデルを備えた新しいフレームワークである。
データセットは、複数のRAGシナリオにわたる厳密な評価をサポートし、審査モデルは、コンパクトなオープンソースLLMから微調整される。
論文 参考訳(メタデータ) (2025-02-26T15:12:59Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [3.9139847342664864]
本稿では,RAGシステムの不正検索に対する堅牢性を評価するために設計されたファクトチェックデータセットであるRAGuardを紹介する。
RAGuardは、回収された証拠を3つのタイプに分類する。
ベンチマーク実験の結果,LLM方式のRAGシステムはすべて,ゼロショットベースラインよりも性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。