Fugu-MT 論文翻訳(概要): Benchmarking Large Language Models in Retrieval-Augmented Generation

論文の概要: Benchmarking Large Language Models in Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2309.01431v2
Date: Wed, 20 Dec 2023 11:54:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 19:01:40.976942
Title: Benchmarking Large Language Models in Retrieval-Augmented Generation
Title（参考訳）: 検索型生成における大規模言語モデルのベンチマーク
Authors: Jiawei Chen, Hongyu Lin, Xianpei Han, Le Sun
Abstract要約: 大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
参考スコア（独自算出の注目度）: 53.504471079548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) is a promising approach for mitigating the hallucination of large language models (LLMs). However, existing research lacks rigorous evaluation of the impact of retrieval-augmented generation on different large language models, which make it challenging to identify the potential bottlenecks in the capabilities of RAG for different LLMs. In this paper, we systematically investigate the impact of Retrieval-Augmented Generation on large language models. We analyze the performance of different large language models in 4 fundamental abilities required for RAG, including noise robustness, negative rejection, information integration, and counterfactual robustness. To this end, we establish Retrieval-Augmented Generation Benchmark (RGB), a new corpus for RAG evaluation in both English and Chinese. RGB divides the instances within the benchmark into 4 separate testbeds based on the aforementioned fundamental abilities required to resolve the case. Then we evaluate 6 representative LLMs on RGB to diagnose the challenges of current LLMs when applying RAG. Evaluation reveals that while LLMs exhibit a certain degree of noise robustness, they still struggle significantly in terms of negative rejection, information integration, and dealing with false information. The aforementioned assessment outcomes indicate that there is still a considerable journey ahead to effectively apply RAG to LLMs.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚を緩和するための有望なアプローチである。しかし、既存の研究では、検索強化生成が異なる大言語モデルに与える影響を厳格に評価することはなく、異なるLLMに対するRAGの能力の潜在的なボトルネックを特定することは困難である。本稿では,大規模言語モデルに対するRetrieval-Augmented Generationの効果を体系的に検討する。本稿では,RAGに必要な4つの基本能力,雑音の頑健性,否定的拒絶性,情報統合,対実的堅牢性など,異なる大規模言語モデルの性能を解析する。この目的のために、我々はRGB(Retrieval-Augmented Generation Benchmark)を設立し、RAG評価のための新しいコーパスを英語と中国語の両方で提供する。 RGBは、上記のケースを解決するために必要な基本的な能力に基づいて、ベンチマーク内のインスタンスを4つのテストベッドに分割する。 RGB 上の 6 つの代表 LLM を評価し,RAG を適用する際の現在の LLM の課題を診断する。評価の結果、LLMはある程度のノイズ堅牢性を示すが、否定的な拒絶、情報統合、偽情報処理といった面では依然としてかなり苦労していることが明らかとなった。以上の評価結果は、RAGをLCMに効果的に適用するには、まだかなりの道程があることを示している。

関連論文リスト

Unlocking the Potentials of Retrieval-Augmented Generation for Diffusion Language Models [38.148737920360766]
Retrieval-Augmented Generationは、大規模言語モデル(LLM)の拡張において大きな成功を示している RAGと組み合わせたDLMは、文脈情報に強く依存する有望なポテンシャルを示すが、限られた生成精度に悩まされていることを示す。本稿では,クエリ関連誘導型デノゲーション戦略を導入する新しいフレームワークであるセマンティック保存型レトリーバル拡張拡散(SPREAD)を提案する。
論文参考訳（メタデータ） (2026-01-16T14:45:46Z)
M4-RAG: A Massive-Scale Multilingual Multi-Cultural Multimodal RAG [14.205193386331553]
視覚言語モデル(VLM)は視覚的質問応答(VQA)において高い性能を達成した Retrieval-Augmented Generation (RAG)は、最新の文化的基盤と多言語情報へのアクセスを可能にすることで、この制限を緩和する。 M4-RAGは42の言語と56の地域方言とレジスタをカバーする大規模なベンチマークである。
論文参考訳（メタデータ） (2025-12-05T18:55:58Z)
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation [23.060355911225923]
リランカは、生成品質と説明可能性を高めるために、検索した文書の精錬において重要な役割を果たす。本稿では,リランカが検索した文書の順序と数の両方を動的に調整する新しいRAGフレームワークであるDynamicRAGを提案する。
論文参考訳（メタデータ） (2025-05-12T05:19:01Z)
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey [29.186229489968564]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) と外部情報検索を統合し、自然言語処理に革命をもたらした。 RAGシステムの評価は、検索と生成コンポーネントを組み合わせたハイブリッドアーキテクチャのため、ユニークな課題を示す。
論文参考訳（メタデータ） (2025-04-21T06:39:47Z)
Out of Style: RAG's Fragility to Linguistic Variation [29.59506089890902]
ユーザクエリは言語的なバリエーションが大きく、依存するRAGコンポーネント間のカスケードエラーを引き起こす可能性がある。我々は,4つの言語的次元(形式性,可読性,丁寧性,文法的正しさ)がRAG性能に与える影響を分析する。
論文参考訳（メタデータ） (2025-04-11T03:30:26Z)
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack [9.760456105567078]
本稿では,Large Language Models(LLM)とRetrieval-Augmented Generation(RAG)を体系的に比較する統一フレームワークであるU-NIAHを紹介する。本フレームワークでは,複数のニードル,長いニードル,ニードルの設定を,異なる検索設定とともに組み込んでいる。以上の結果から,RAGはロスト・イン・ザ・ミドル効果を緩和し,ロバスト性を向上させることにより,より小さなLCMを著しく向上させることが明らかとなった。
論文参考訳（メタデータ） (2025-03-01T05:05:24Z)
THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。 THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文参考訳（メタデータ） (2024-09-17T16:55:25Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文参考訳（メタデータ） (2024-07-01T09:09:27Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing [0.2302001830524133]
本稿では,検索言語モデル (RALM) に関する総合的な概要の欠如について論じる。本稿では、Retrievers、Language Models、Augmentationsなど、ALMの本質的なコンポーネントについて論じる。 RALMは、翻訳や対話システムから知識集約アプリケーションまで、様々なタスクにおいて有用性を示す。
論文参考訳（メタデータ） (2024-04-30T13:14:51Z)
Reinforcement Retrieval Leveraging Fine-grained Feedback for Fact Checking News Claims with Black-Box LLM [7.702325506088706]
本稿では, ニュースクレームの事実チェックを強化するために, FFRR(Reinforcement Retrieval)を用いたきめ細かいフィードバックを利用する手法を提案する。実世界のニュースクレーム検証のための2つの公開データセット上で本モデルを評価する。
論文参考訳（メタデータ） (2024-04-26T09:38:27Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。