論文の概要: Benchmarking Large Language Models in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2309.01431v1
- Date: Mon, 4 Sep 2023 08:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:21:51.154253
- Title: Benchmarking Large Language Models in Retrieval-Augmented Generation
- Title(参考訳): 検索型生成における大規模言語モデルのベンチマーク
- Authors: Jiawei Chen, Hongyu Lin, Xianpei Han, Le Sun
- Abstract要約: 大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
- 参考スコア(独自算出の注目度): 53.504471079548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a promising approach for mitigating
the hallucination of large language models (LLMs). However, existing research
lacks rigorous evaluation of the impact of retrieval-augmented generation on
different large language models, which make it challenging to identify the
potential bottlenecks in the capabilities of RAG for different LLMs. In this
paper, we systematically investigate the impact of Retrieval-Augmented
Generation on large language models. We analyze the performance of different
large language models in 4 fundamental abilities required for RAG, including
noise robustness, negative rejection, information integration, and
counterfactual robustness. To this end, we establish Retrieval-Augmented
Generation Benchmark (RGB), a new corpus for RAG evaluation in both English and
Chinese. RGB divides the instances within the benchmark into 4 separate
testbeds based on the aforementioned fundamental abilities required to resolve
the case. Then we evaluate 6 representative LLMs on RGB to diagnose the
challenges of current LLMs when applying RAG. Evaluation reveals that while
LLMs exhibit a certain degree of noise robustness, they still struggle
significantly in terms of negative rejection, information integration, and
dealing with false information. The aforementioned assessment outcomes indicate
that there is still a considerable journey ahead to effectively apply RAG to
LLMs.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚を緩和するための有望なアプローチである。
しかし、既存の研究では、検索強化生成が異なる大言語モデルに与える影響を厳格に評価することはなく、異なるLLMに対するRAGの能力の潜在的なボトルネックを特定することは困難である。
本稿では,大規模言語モデルに対するRetrieval-Augmented Generationの効果を体系的に検討する。
本稿では,RAGに必要な4つの基本能力,雑音の頑健性,否定的拒絶性,情報統合,対実的堅牢性など,異なる大規模言語モデルの性能を解析する。
この目的のために、我々はRGB(Retrieval-Augmented Generation Benchmark)を設立し、RAG評価のための新しいコーパスを英語と中国語の両方で提供する。
RGBは、上記のケースを解決するために必要な基本的な能力に基づいて、ベンチマーク内のインスタンスを4つのテストベッドに分割する。
RGB 上の 6 つの代表 LLM を評価し,RAG を適用する際の現在の LLM の課題を診断する。
評価の結果、LLMはある程度のノイズ堅牢性を示すが、否定的な拒絶、情報統合、偽情報処理といった面では依然としてかなり苦労していることが明らかとなった。
以上の評価結果は、RAGをLCMに効果的に適用するには、まだかなりの道程があることを示している。
関連論文リスト
- BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
メタ推論スキルを必要とするプロセスベースのベンチマークを提案する。
MR-BENは、人間の専門家から収集された5,975の質問からなる総合的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing [0.2302001830524133]
本稿では,検索言語モデル (RALM) に関する総合的な概要の欠如について論じる。
本稿では、Retrievers、Language Models、Augmentationsなど、ALMの本質的なコンポーネントについて論じる。
RALMは、翻訳や対話システムから知識集約アプリケーションまで、様々なタスクにおいて有用性を示す。
論文 参考訳(メタデータ) (2024-04-30T13:14:51Z) - Reinforcement Retrieval Leveraging Fine-grained Feedback for Fact Checking News Claims with Black-Box LLM [7.702325506088706]
本稿では, ニュースクレームの事実チェックを強化するために, FFRR(Reinforcement Retrieval)を用いたきめ細かいフィードバックを利用する手法を提案する。
実世界のニュースクレーム検証のための2つの公開データセット上で本モデルを評価する。
論文 参考訳(メタデータ) (2024-04-26T09:38:27Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。
本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文 参考訳(メタデータ) (2023-12-31T04:43:45Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。