論文の概要: Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13192v2
- Date: Sat, 14 Dec 2024 12:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:08.595445
- Title: Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた検索機能強化のための自己生成文書の評価
- Authors: Jiatao Li, Xinyu Hu, Xunjian Yin, Xiaojun Wan,
- Abstract要約: 本稿では,自己文書の総合的有効性について検討し,RAGパフォーマンスへの貢献を形作る重要な要因を同定する。
これらの知見に基づいて,体系的機能言語学に基づく分類学を開発し,様々なセルフドキュメンテーションカテゴリーの影響を比較する。
その結果,どのタイプのセルフドキュメンテーションが最も有用かを明らかにし,それを活用するための実践的ガイドラインを提供した。
- 参考スコア(独自算出の注目度): 39.243030042003646
- License:
- Abstract: The integration of documents generated by LLMs themselves (Self-Docs) alongside retrieved documents has emerged as a promising strategy for retrieval-augmented generation systems. However, previous research primarily focuses on optimizing the use of Self-Docs, with their inherent properties remaining underexplored. To bridge this gap, we first investigate the overall effectiveness of Self-Docs, identifying key factors that shape their contribution to RAG performance (RQ1). Building on these insights, we develop a taxonomy grounded in Systemic Functional Linguistics to compare the influence of various Self-Docs categories (RQ2) and explore strategies for combining them with external sources (RQ3). Our findings reveal which types of Self-Docs are most beneficial and offer practical guidelines for leveraging them to achieve significant improvements in knowledge-intensive question answering tasks.
- Abstract(参考訳): LLM自身(Self-Docs)が生成した文書と検索文書の統合は,検索拡張生成システムにとって有望な戦略である。
しかし、従来の研究は主にセルフドキュメンテーションの使用を最適化することに焦点を当てており、その固有の性質は未探索のままである。
このギャップを埋めるために、まず、自己文書の全体的な有効性を調査し、RAGパフォーマンスへの貢献を形作る重要な要因を特定します(RQ1)。
これらの知見に基づいて,体系的機能言語学に基づく分類学を開発し,様々な自己文書カテゴリー(RQ2)の影響を比較し,それらを外部ソース(RQ3)と組み合わせるための戦略を探究する。
その結果,どのセルフドキュメンテーションが最も有用かを明らかにするとともに,知識集約型質問応答タスクの大幅な改善を実現するための実践的ガイドラインを提供することができた。
関連論文リスト
- Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - Reward-RAG: Enhancing RAG with Reward Driven Supervision [43.66966457772646]
本稿では、Reward-Driven Supervisionを通じて、Retrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいアプローチであるReward-RAGを紹介する。
従来のRAG手法とは異なり,本手法ではCriticGPTを用いて検索情報を特定の領域に適応させ,専用報酬モデルを訓練する。
この報酬モデルは、RAGを微調整するための合成データセットを生成し、その出力を人間の好みとより密に一致させる。
論文 参考訳(メタデータ) (2024-10-03T15:26:50Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - ARAGOG: Advanced RAG Output Grading [44.99833362998488]
Retrieval-Augmented Generation (RAG) は、外部知識をLLM(Large Language Model)出力に統合するために不可欠である。
本研究では,様々なRAG手法が検索精度および回答類似性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-01T10:43:52Z) - Leveraging BERT Language Models for Multi-Lingual ESG Issue
Identification [0.30254881201174333]
投資家は投資選択におけるESG基準の重要性をますます認識している。
ML-ESG(Multi-Lingual ESG Issue Identification)タスクは、ニュース文書を35の異なるESGイシューラベルに分類する。
本研究では,BERT言語モデルを用いた複数の手法を探索し,これらのラベル間のニュース文書の正確な分類を実現する。
論文 参考訳(メタデータ) (2023-09-05T12:48:21Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - AdaSGD: Bridging the gap between SGD and Adam [14.886598905466604]
我々はSGDとAdamのパフォーマンスの潜在的な違いを同定する。
我々は、AdaSGDがSGD AdamとSGD非降下の両方の利点を組み合わせていることを実証する。
論文 参考訳(メタデータ) (2020-06-30T05:44:19Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。