論文の概要: Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13192v2
- Date: Sat, 14 Dec 2024 12:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.123803
- Title: Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた検索機能強化のための自己生成文書の評価
- Authors: Jiatao Li, Xinyu Hu, Xunjian Yin, Xiaojun Wan,
- Abstract要約: 本稿では,自己文書の総合的有効性について検討し,RAGパフォーマンスへの貢献を形作る重要な要因を同定する。
これらの知見に基づいて,体系的機能言語学に基づく分類学を開発し,様々なセルフドキュメンテーションカテゴリーの影響を比較する。
その結果,どのタイプのセルフドキュメンテーションが最も有用かを明らかにし,それを活用するための実践的ガイドラインを提供した。
- 参考スコア(独自算出の注目度): 39.243030042003646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of documents generated by LLMs themselves (Self-Docs) alongside retrieved documents has emerged as a promising strategy for retrieval-augmented generation systems. However, previous research primarily focuses on optimizing the use of Self-Docs, with their inherent properties remaining underexplored. To bridge this gap, we first investigate the overall effectiveness of Self-Docs, identifying key factors that shape their contribution to RAG performance (RQ1). Building on these insights, we develop a taxonomy grounded in Systemic Functional Linguistics to compare the influence of various Self-Docs categories (RQ2) and explore strategies for combining them with external sources (RQ3). Our findings reveal which types of Self-Docs are most beneficial and offer practical guidelines for leveraging them to achieve significant improvements in knowledge-intensive question answering tasks.
- Abstract(参考訳): LLM自身(Self-Docs)が生成した文書と検索文書の統合は,検索拡張生成システムにとって有望な戦略である。
しかし、従来の研究は主にセルフドキュメンテーションの使用を最適化することに焦点を当てており、その固有の性質は未探索のままである。
このギャップを埋めるために、まず、自己文書の全体的な有効性を調査し、RAGパフォーマンスへの貢献を形作る重要な要因を特定します(RQ1)。
これらの知見に基づいて,体系的機能言語学に基づく分類学を開発し,様々な自己文書カテゴリー(RQ2)の影響を比較し,それらを外部ソース(RQ3)と組み合わせるための戦略を探究する。
その結果,どのセルフドキュメンテーションが最も有用かを明らかにするとともに,知識集約型質問応答タスクの大幅な改善を実現するための実践的ガイドラインを提供することができた。
関連論文リスト
- A Survey on Knowledge-Oriented Retrieval-Augmented Generation [45.65542434522205]
近年,RAG (Retrieval-Augmented Generation) が注目されている。
RAGは大規模検索システムと生成モデルを組み合わせる。
動的外部知識を用いた生成モデルの強化など,RAGの重要な特徴について論じる。
論文 参考訳(メタデータ) (2025-03-11T01:59:35Z) - Is Relevance Propagated from Retriever to Generator in RAG? [21.82171240511567]
RAGは外部知識を組み込むためのフレームワークであり、通常はコレクションから取得した文書の集合の形式である。
我々は、トポロジに関連のある文書からなるRAGコンテキストが下流の性能向上につながるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2025-02-20T20:21:46Z) - Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。
我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。
結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文 参考訳(メタデータ) (2025-01-05T00:27:36Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - Reward-RAG: Enhancing RAG with Reward Driven Supervision [43.66966457772646]
本稿では、Reward-Driven Supervisionを通じて、Retrieval-Augmented Generation(RAG)モデルを強化するために設計された新しいアプローチであるReward-RAGを紹介する。
従来のRAG手法とは異なり,本手法ではCriticGPTを用いて検索情報を特定の領域に適応させ,専用報酬モデルを訓練する。
この報酬モデルは、RAGを微調整するための合成データセットを生成し、その出力を人間の好みとより密に一致させる。
論文 参考訳(メタデータ) (2024-10-03T15:26:50Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - ARAGOG: Advanced RAG Output Grading [44.99833362998488]
Retrieval-Augmented Generation (RAG) は、外部知識をLLM(Large Language Model)出力に統合するために不可欠である。
本研究では,様々なRAG手法が検索精度および回答類似性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-04-01T10:43:52Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Leveraging BERT Language Models for Multi-Lingual ESG Issue
Identification [0.30254881201174333]
投資家は投資選択におけるESG基準の重要性をますます認識している。
ML-ESG(Multi-Lingual ESG Issue Identification)タスクは、ニュース文書を35の異なるESGイシューラベルに分類する。
本研究では,BERT言語モデルを用いた複数の手法を探索し,これらのラベル間のニュース文書の正確な分類を実現する。
論文 参考訳(メタデータ) (2023-09-05T12:48:21Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - AdaSGD: Bridging the gap between SGD and Adam [14.886598905466604]
我々はSGDとAdamのパフォーマンスの潜在的な違いを同定する。
我々は、AdaSGDがSGD AdamとSGD非降下の両方の利点を組み合わせていることを実証する。
論文 参考訳(メタデータ) (2020-06-30T05:44:19Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。