Fugu-MT 論文翻訳(概要): Evaluating the Retrieval Robustness of Large Language Models

論文の概要: Evaluating the Retrieval Robustness of Large Language Models

arxiv url: http://arxiv.org/abs/2505.21870v1
Date: Wed, 28 May 2025 01:34:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.353809
Title: Evaluating the Retrieval Robustness of Large Language Models
Title（参考訳）: 大規模言語モデルの検索ロバスト性の評価
Authors: Shuyang Cao, Karthik Radhakrishnan, David Rosenberg, Steven Lu, Pengxiang Cheng, Lu Wang, Shiyue Zhang,
Abstract要約: Retrieval-augmented Generation (RAG) は一般的に、知識集約的なタスクを解決するための大きな言語モデルのLLM(LLM)能力を向上する。しかし、RAGは、不完全な検索と、検索されたコンテンツを活用する能力の制限により、パフォーマンスが低下する可能性がある。我々は,(1)RAGが非RAGより常に優れているか,(2)検索された文書が常により良いパフォーマンスをもたらすか,(3)文書注文が結果に影響を及ぼすか,という3つの研究課題に焦点をあてる。
参考スコア（独自算出の注目度）: 33.151292780355185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-augmented generation (RAG) generally enhances large language models' (LLMs) ability to solve knowledge-intensive tasks. But RAG may also lead to performance degradation due to imperfect retrieval and the model's limited ability to leverage retrieved content. In this work, we evaluate the robustness of LLMs in practical RAG setups (henceforth retrieval robustness). We focus on three research questions: (1) whether RAG is always better than non-RAG; (2) whether more retrieved documents always lead to better performance; (3) and whether document orders impact results. To facilitate this study, we establish a benchmark of 1500 open-domain questions, each with retrieved documents from Wikipedia. We introduce three robustness metrics, each corresponds to one research question. Our comprehensive experiments, involving 11 LLMs and 3 prompting strategies, reveal that all of these LLMs exhibit surprisingly high retrieval robustness; nonetheless, different degrees of imperfect robustness hinders them from fully utilizing the benefits of RAG.
Abstract（参考訳）: Retrieval-augmented Generation (RAG) は一般的に、知識集約的なタスクを解決するための大きな言語モデルのLLM(LLM)能力を向上する。しかし、RAGは、不完全な検索と、検索されたコンテンツを活用する能力の制限により、パフォーマンスが低下する可能性がある。本研究では,実用RAGセットアップにおけるLCMのロバスト性を評価する。我々は,(1)RAGが非RAGより常に優れているか,(2)検索された文書が常により良いパフォーマンスをもたらすか,(3)文書注文が結果に影響を及ぼすか,という3つの研究課題に焦点をあてる。そこで本研究では,ウィキペディアから検索した文書を用いて,1500のオープンドメイン質問のベンチマークを作成した。 3つのロバストネス指標を導入し、それぞれが1つの研究課題に対応している。 11のLSMと3のプロンプト戦略を含む包括的実験により、これらのLSMは驚くほど高い検索堅牢性を示すことが明らかになったが、しかしながら、不完全なロバスト性はRAGの利点を完全に活用することを妨げている。

関連論文リスト

RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation [45.679455112940175]
Retrieval-augmented Generation (RAG)は、推論時に取得した外部知識を統合することにより、大規模言語モデル(LLM)を強化する。我々は,知識の混合を伴う大規模データストアであるMassiveDSを用いてRAGシステムを評価し,限界点を特定した。
論文参考訳（メタデータ） (2025-07-26T20:57:24Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [62.742230250513025]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文参考訳（メタデータ） (2025-05-26T12:25:37Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。 mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文参考訳（メタデータ） (2024-11-22T16:15:50Z)
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。 PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文参考訳（メタデータ） (2024-07-11T06:50:19Z)
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文参考訳（メタデータ） (2024-07-01T09:09:27Z)
Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.581518952488093]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。 MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文参考訳（メタデータ） (2024-06-07T16:59:38Z)
Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.046603287532620746]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文参考訳（メタデータ） (2024-03-23T00:49:40Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。 Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文参考訳（メタデータ） (2023-12-18T07:47:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。