論文の概要: Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13192v1
- Date: Thu, 17 Oct 2024 03:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:17.089895
- Title: Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた検索機能強化のための自己生成文書の評価
- Authors: Jiatao Li, Xinyu Hu, Xunjian Yin, Xiaojun Wan,
- Abstract要約: 本稿では,多種多様な自己生成文書(SGD)を包括的に分析し,知識集約型タスクの実験を行う。
我々は,SGD の分類を体系的機能言語学(SFL)に基づいて開発し,異なるSGD カテゴリーの影響を比較する。
また,SGDのカテゴリに基づくさらなる融合手法は,知識駆動型QAタスクのRAGによる大幅な進歩を実現するために,SGDをより活用するための実践的ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 39.243030042003646
- License:
- Abstract: In retrieval-augmented generation systems, the integration of self-generated documents (SGDs) alongside retrieved content has emerged as a promising strategy for enhancing the performance of large language model. However, previous research primarily focuses on optimizing the use of SGDs, with the inherent properties of SGDs remaining underexplored. Therefore, this paper conducts a comprehensive analysis of different types of SGDs and experiments on various knowledge-intensive tasks. We develop a taxonomy of SGDs grounded in Systemic Functional Linguistics (SFL) to compare the influence of different SGD categories. Our findings offer key insights into what kinds of SGDs most effectively contribute to improving LLM's performance. The results and further fusion methods based on SGD categories also provide practical guidelines for taking better advantage of SGDs to achieve significant advancements in knowledge-driven QA tasks with RAG.
- Abstract(参考訳): 検索強化生成システムでは、検索コンテンツと自己生成文書(SGD)の統合が、大規模言語モデルの性能向上のための有望な戦略として浮上している。
しかし、以前の研究では主にSGDの使用を最適化することに焦点を当てており、SGDの固有の性質は未調査のままである。
そこで本研究では,様々な種類のSGDを包括的に分析し,様々な知識集約型タスクの実験を行う。
我々は,SGD の分類を体系的機能言語学(SFL)に基づいて開発し,異なるSGD カテゴリーの影響を比較する。
以上の結果から,LLMの性能向上に最も寄与するSGDについて重要な知見が得られた。
また,SGDのカテゴリに基づくさらなる融合手法は,知識駆動型QAタスクのRAGによる大幅な進歩を実現するために,SGDをより活用するための実践的ガイドラインを提供する。
関連論文リスト
- Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - Reward-RAG: Enhancing RAG with Reward Driven Supervision [43.66966457772646]
本稿では、Reward-Driven Supervisionを通じて、Retrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいアプローチであるReward-RAGを紹介する。
従来のRAG手法とは異なり,本手法ではCriticGPTを用いて検索情報を特定の領域に適応させ,専用報酬モデルを訓練する。
この報酬モデルは、RAGを微調整するための合成データセットを生成し、その出力を人間の好みとより密に一致させる。
論文 参考訳(メタデータ) (2024-10-03T15:26:50Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - ARAGOG: Advanced RAG Output Grading [44.99833362998488]
Retrieval-Augmented Generation (RAG) は、外部知識をLLM(Large Language Model)出力に統合するために不可欠である。
本研究では,様々なRAG手法が検索精度および回答類似性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-01T10:43:52Z) - Leveraging BERT Language Models for Multi-Lingual ESG Issue
Identification [0.30254881201174333]
投資家は投資選択におけるESG基準の重要性をますます認識している。
ML-ESG(Multi-Lingual ESG Issue Identification)タスクは、ニュース文書を35の異なるESGイシューラベルに分類する。
本研究では,BERT言語モデルを用いた複数の手法を探索し,これらのラベル間のニュース文書の正確な分類を実現する。
論文 参考訳(メタデータ) (2023-09-05T12:48:21Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - AdaSGD: Bridging the gap between SGD and Adam [14.886598905466604]
我々はSGDとAdamのパフォーマンスの潜在的な違いを同定する。
我々は、AdaSGDがSGD AdamとSGD非降下の両方の利点を組み合わせていることを実証する。
論文 参考訳(メタデータ) (2020-06-30T05:44:19Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。