論文の概要: Evaluating the Retrieval Robustness of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.21870v1
- Date: Wed, 28 May 2025 01:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.353809
- Title: Evaluating the Retrieval Robustness of Large Language Models
- Title(参考訳): 大規模言語モデルの検索ロバスト性の評価
- Authors: Shuyang Cao, Karthik Radhakrishnan, David Rosenberg, Steven Lu, Pengxiang Cheng, Lu Wang, Shiyue Zhang,
- Abstract要約: Retrieval-augmented Generation (RAG) は一般的に、知識集約的なタスクを解決するための大きな言語モデルのLLM(LLM)能力を向上する。
しかし、RAGは、不完全な検索と、検索されたコンテンツを活用する能力の制限により、パフォーマンスが低下する可能性がある。
我々は,(1)RAGが非RAGより常に優れているか,(2)検索された文書が常により良いパフォーマンスをもたらすか,(3)文書注文が結果に影響を及ぼすか,という3つの研究課題に焦点をあてる。
- 参考スコア(独自算出の注目度): 33.151292780355185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) generally enhances large language models' (LLMs) ability to solve knowledge-intensive tasks. But RAG may also lead to performance degradation due to imperfect retrieval and the model's limited ability to leverage retrieved content. In this work, we evaluate the robustness of LLMs in practical RAG setups (henceforth retrieval robustness). We focus on three research questions: (1) whether RAG is always better than non-RAG; (2) whether more retrieved documents always lead to better performance; (3) and whether document orders impact results. To facilitate this study, we establish a benchmark of 1500 open-domain questions, each with retrieved documents from Wikipedia. We introduce three robustness metrics, each corresponds to one research question. Our comprehensive experiments, involving 11 LLMs and 3 prompting strategies, reveal that all of these LLMs exhibit surprisingly high retrieval robustness; nonetheless, different degrees of imperfect robustness hinders them from fully utilizing the benefits of RAG.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は一般的に、知識集約的なタスクを解決するための大きな言語モデルのLLM(LLM)能力を向上する。
しかし、RAGは、不完全な検索と、検索されたコンテンツを活用する能力の制限により、パフォーマンスが低下する可能性がある。
本研究では,実用RAGセットアップにおけるLCMのロバスト性を評価する。
我々は,(1)RAGが非RAGより常に優れているか,(2)検索された文書が常により良いパフォーマンスをもたらすか,(3)文書注文が結果に影響を及ぼすか,という3つの研究課題に焦点をあてる。
そこで本研究では,ウィキペディアから検索した文書を用いて,1500のオープンドメイン質問のベンチマークを作成した。
3つのロバストネス指標を導入し、それぞれが1つの研究課題に対応している。
11のLSMと3のプロンプト戦略を含む包括的実験により、これらのLSMは驚くほど高い検索堅牢性を示すことが明らかになったが、しかしながら、不完全なロバスト性はRAGの利点を完全に活用することを妨げている。
関連論文リスト
- R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.046603287532620746]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。