論文の概要: Retrieval-Augmented Generation with Estimation of Source Reliability
- arxiv url: http://arxiv.org/abs/2410.22954v1
- Date: Wed, 30 Oct 2024 12:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:02.869705
- Title: Retrieval-Augmented Generation with Estimation of Source Reliability
- Title(参考訳): ソース信頼性を推定した検索拡張生成
- Authors: Jeongyeon Hwang, Junyoung Park, Hyejin Park, Sangdon Park, Jungseul Ok,
- Abstract要約: Reliability-Aware RAG (RA-RAG) は複数のソースの信頼性を推定し、この情報を検索プロセスと集約プロセスの両方に組み込む。
異質なソース信頼性を持つ実世界のシナリオを反映したベンチマークを導入する。
- 参考スコア(独自算出の注目度): 15.69681944254975
- License:
- Abstract: Retrieval-augmented generation (RAG) addresses key limitations of large language models (LLMs), such as hallucinations and outdated knowledge, by incorporating external databases. These databases typically consult multiple sources to encompass up-to-date and various information. However, standard RAG methods often overlook the heterogeneous source reliability in the multi-source database and retrieve documents solely based on relevance, making them prone to propagating misinformation. To address this, we propose Reliability-Aware RAG (RA-RAG) which estimates the reliability of multiple sources and incorporates this information into both retrieval and aggregation processes. Specifically, it iteratively estimates source reliability and true answers for a set of queries with no labelling. Then, it selectively retrieves relevant documents from a few of reliable sources and aggregates them using weighted majority voting, where the selective retrieval ensures scalability while not compromising the performance. We also introduce a benchmark designed to reflect real-world scenarios with heterogeneous source reliability and demonstrate the effectiveness of RA-RAG compared to a set of baselines.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、外部データベースを組み込むことで、幻覚や時代遅れの知識といった大きな言語モデル(LLM)の重要な制限に対処する。
これらのデータベースは通常、最新の情報や様々な情報を含む複数のソースを参照する。
しかし、標準的なRAG手法は、マルチソースデータベースにおける異種ソースの信頼性を見落とし、関連性のみに基づいて文書を検索することが多く、誤情報を伝播する傾向にある。
そこで本稿では,複数のソースの信頼性を推定し,この情報を検索処理と集約処理の両方に組み込むRA-RAG(Reliability-Aware RAG)を提案する。
具体的には、ラベル付けのないクエリのセットに対して、ソースの信頼性と真の回答を反復的に推定する。
そして、信頼性のあるいくつかの情報源から関連文書を選択的に検索し、重み付けされた多数決投票を用いて集約し、選択された検索により、性能を損なわずにスケーラビリティが保証される。
また、異種ソース信頼性を持つ実世界のシナリオを反映したベンチマークを導入し、RA-RAGの有効性を一連のベースラインと比較した。
関連論文リスト
- Towards Multi-Source Retrieval-Augmented Generation via Synergizing Reasoning and Preference-Driven Retrieval [4.862780562808097]
既存のadaptive RAG (ARAG) システムは、適切なタイミングで適切なソースを選択することができないため、複数の検索ソースを効果的に探索するのに苦労している。
我々は,MSPRと呼ばれるマルチソースARAGフレームワークを提案し,推論と嗜好駆動型検索を相乗化して「いつ,何を検索すべきか」と「どの検索ソースを使うのか」を適応的に決定する。
論文 参考訳(メタデータ) (2024-11-01T15:50:58Z) - Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval [3.9639424852746274]
本稿では,言語モデルの中間層からの隠れ状態表現を利用して,与えられたクエリに対する追加検索の必要性を適応的に決定するProbing-RAGを提案する。
Probing-RAGはモデルの内部認識を効果的に捉え、外部文書の取得に関する信頼性の高い意思決定を可能にする。
論文 参考訳(メタデータ) (2024-10-17T08:48:54Z) - MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources [12.783393023641505]
我々は、MATTERと呼ばれる効率的なメモリ拡張変換器を導入する。
MATTERは、固定長のニューラルメモリの形で、非構造化ソース(パラグラフ)と半構造化ソース(QAペア)の両方から読み取る。
提案モデルでは,従来のQAベンチマークにおいて,精度と速度の両面で,既存の効率的な検索強化モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-07T06:35:37Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - k-Rater Reliability: The Correct Unit of Reliability for Aggregated
Human Annotations [2.538209532048867]
集約データセットの正しいデータ信頼性として、提案されたk-rater信頼性(kRR)を用いる必要がある。
我々は、WordSim-353上でkRRを計算するための経験的、分析的、ブートストラップに基づく手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T08:05:06Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。