論文の概要: Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20680v1
- Date: Fri, 31 May 2024 08:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:07:03.109216
- Title: Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models
- Title(参考訳): 検索型大規模言語モデルにおける検索不整合の解消と緩和
- Authors: Mingda Li, Xinyu Li, Yifan Chen, Wenfeng Xuan, Weinan Zhang,
- Abstract要約: Retrieval-augmented Large Language Models (RALMs) は、元の検索自由言語モデル (LMs) を一貫して上回るものではない。
提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。
本稿では,異なる知識ソースから適応的に検索し,予測不能な読み出し誤りを効果的に低減できるトレーニング可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介する。
- 参考スコア(独自算出の注目度): 25.346800371132645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Retrieval-Augmented Large Language Models (RALMs) demonstrate their superiority in terms of factuality, they do not consistently outperform the original retrieval-free Language Models (LMs). Our experiments reveal that this example-level performance inconsistency exists not only between retrieval-augmented and retrieval-free LM but also among different retrievers. To understand this phenomenon, we investigate the degeneration behavior of RALMs and theoretically decompose it into four categories. Further analysis based on our decomposition reveals that the innate difference in knowledge sources and the unpredictable degeneration of the reader model contribute most to the inconsistency. Drawing from our analysis, we introduce Ensemble of Retrievers (EoR), a trainable framework that can adaptively retrieve from different knowledge sources and effectively decrease unpredictable reader errors. Our experiments on Open Domain Question Answering show that EoR substantially improves performance over the RALM with a single retriever by considerably reducing inconsistent behaviors.
- Abstract(参考訳): Retrieval-Augmented Large Language Models (RALMs) は事実性の観点からその優位性を示すが、元の検索自由言語モデル (LMs) よりも一貫して優れているわけではない。
提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。
この現象を理解するために,ALMの変性挙動を調査し,理論的に4つのカテゴリに分解する。
分析の結果,知識源の自然差と予測不可能な読解モデル劣化が矛盾に大きく寄与していることが判明した。
本分析から,異なる知識ソースから適応的に検索し,予測不能な読取誤差を効果的に低減できる訓練可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介した。
Open Domain Question Answering 実験の結果,EoR は不整合挙動を著しく低減し,単一検索器を用いた RALM 上での性能を大幅に向上することが示された。
関連論文リスト
- Towards Competitive Search Relevance For Inference-Free Learned Sparse Retrievers [6.773411876899064]
推測のないスパースモデルは 検索の関連という点で はるかに遅れています スパースモデルと密集したサイムズモデルの両方と比較して
まず,IDF(Inverted Document Frequency)を導入したIFF対応のFLOPS損失を表現のスペーシングに導入する。
その結果、FLOPS正則化が検索関連性に与える影響を軽減し、精度と効率のバランスが良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-07T03:46:43Z) - Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation [20.420575358183687]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)に固有の幻覚を緩和する有効な方法であることが証明されている。
従来のアプローチでは、通常、RAGの最適化に欠けるセマンティックな類似性に基づいて、レトリバーをトレーニングする。
我々は,LLMの言語機能を活用して,より粒度の細かい情報中心の視点からサンプルを構築する新しいフレームワークFiGRetを提案する。
論文 参考訳(メタデータ) (2024-11-06T14:42:39Z) - LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - Evaluating the Retrieval Component in LLM-Based Question Answering Systems [1.7013938542585922]
本研究では,Retrieval-Augmented Generation (RAG)ベースのチャットボットにおける検索者評価のためのベースラインを提案する。
以上の結果から, この評価フレームワークは, 検索者の動作状況をよりよく把握できることを示した。
本手法では,無関係な文脈を無視するLLMの強みと,その応答における潜在的な誤りや幻覚を考察する。
論文 参考訳(メタデータ) (2024-06-10T16:46:22Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。