論文の概要: C-RAG: Certified Generation Risks for Retrieval-Augmented Language
Models
- arxiv url: http://arxiv.org/abs/2402.03181v1
- Date: Mon, 5 Feb 2024 16:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:57:38.533168
- Title: C-RAG: Certified Generation Risks for Retrieval-Augmented Language
Models
- Title(参考訳): C-RAG:Retrieval-Augmented Language Models の生成リスク認定
- Authors: Mintong Kang, Nezihe Merve G\"urel, Ning Yu, Dawn Song, Bo Li
- Abstract要約: RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
- 参考スコア(独自算出の注目度): 59.706532872634874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive capabilities of large language models (LLMs) across
diverse applications, they still suffer from trustworthiness issues, such as
hallucinations and misalignments. Retrieval-augmented language models (RAG)
have been proposed to enhance the credibility of generations by grounding
external knowledge, but the theoretical understandings of their generation
risks remains unexplored. In this paper, we answer: 1) whether RAG can indeed
lead to low generation risks, 2) how to provide provable guarantees on the
generation risks of RAG and vanilla LLMs, and 3) what sufficient conditions
enable RAG models to reduce generation risks. We propose C-RAG, the first
framework to certify generation risks for RAG models. Specifically, we provide
conformal risk analysis for RAG models and certify an upper confidence bound of
generation risks, which we refer to as conformal generation risk. We also
provide theoretical guarantees on conformal generation risks for general
bounded risk functions under test distribution shifts. We prove that RAG
achieves a lower conformal generation risk than that of a single LLM when the
quality of the retrieval model and transformer is non-trivial. Our intensive
empirical results demonstrate the soundness and tightness of our conformal
generation risk guarantees across four widely-used NLP datasets on four
state-of-the-art retrieval models.
- Abstract(参考訳): 様々なアプリケーションにまたがる大きな言語モデル(LLM)の印象的な機能にもかかわらず、幻覚や誤認識といった信頼性の問題に悩まされている。
探索型言語モデル(rag)は、外部知識を基礎にして世代の信頼性を高めるために提案されているが、その生成リスクの理論的な理解は未定である。
この論文ではこう答えています
1)RAGが実際に低世代リスクにつながるかどうか。
2)ragおよびvanilla llmの発生リスクの証明可能な保証の方法、及び
3)RAGモデルで生成リスクを低減できる十分な条件は何か。
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、ragモデルのコンフォーメーショナルリスク分析を行い、コンフォーメーショナルジェネレーションリスク(conformal generation risk)と呼ぶ、ジェネレーションリスクの上位信頼度を証明します。
また,テスト分布シフトにおける一般有界リスク関数の共形生成リスクに関する理論的保証も提供する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
実験の結果,4つの最先端検索モデル上で広く使用されている4つのNLPデータセットに対して,共形生成リスク保証の健全性と厳密性を示した。
関連論文リスト
- Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference [3.422309388045878]
ChatGPTのような大規模言語モデル(LLM)は、重大なリスクをもたらすことが知られている。
モデルが推論に持っている過信または過信から、誤った信頼が生じる。
本稿では,2段階の推論アーキテクチャと,そのようなリスクを測定するための適切な指標からなる実験フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-04T05:24:32Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文 参考訳(メタデータ) (2024-06-07T08:52:24Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores [4.043005183192123]
大規模言語モデル(LLM)は自然言語処理(NLP)において驚くべきマイルストーンを達成した
優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。
意思決定リスクと複合リスクという,2つの異なるタイプのリスクを定義し,形式化する。
論文 参考訳(メタデータ) (2023-10-05T03:20:41Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。