論文の概要: Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science
- arxiv url: http://arxiv.org/abs/2311.09358v1
- Date: Wed, 15 Nov 2023 20:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:57:57.648364
- Title: Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science
- Title(参考訳): 検索型科学用言語モデルにおける不確かさ定量化の実証評価
- Authors: Sridevi Wagle, Sai Munikoti, Anurag Acharya, Sara Smith, Sameera
Horawalavithana
- Abstract要約: 本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。
我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable achievements in natural
language processing tasks, producing high-quality outputs. However, LLMs still
exhibit limitations, including the generation of factually incorrect
information. In safety-critical applications, it is important to assess the
confidence of LLM-generated content to make informed decisions. Retrieval
Augmented Language Models (RALMs) is relatively a new area of research in NLP.
RALMs offer potential benefits for scientific NLP tasks, as retrieved
documents, can serve as evidence to support model-generated content. This
inclusion of evidence enhances trustworthiness, as users can verify and explore
the retrieved documents to validate model outputs. Quantifying uncertainty in
RALM generations further improves trustworthiness, with retrieved text and
confidence scores contributing to a comprehensive and reliable model for
scientific applications. However, there is limited to no research on UQ for
RALMs, particularly in scientific contexts. This study aims to address this gap
by conducting a comprehensive evaluation of UQ in RALMs, focusing on scientific
tasks. This research investigates how uncertainty scores vary when scientific
knowledge is incorporated as pretraining and retrieval data and explores the
relationship between uncertainty scores and the accuracy of model-generated
outputs. We observe that an existing RALM finetuned with scientific knowledge
as the retrieval data tends to be more confident in generating predictions
compared to the model pretrained only with scientific knowledge. We also found
that RALMs are overconfident in their predictions, making inaccurate
predictions more confidently than accurate ones. Scientific knowledge provided
either as pretraining or retrieval corpus does not help alleviate this issue.
We released our code, data and dashboards at https://github.com/pnnl/EXPERT2.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理タスクにおいて顕著な成果を示し、高品質な出力を生み出している。
しかし、LLMには、事実的に誤った情報の生成を含む制限がある。
安全クリティカルなアプリケーションでは、LCM生成したコンテンツの信頼性を評価し、情報的意思決定を行うことが重要である。
Retrieval Augmented Language Models (RALMs)は、NLPにおける比較的新しい研究分野である。
RALMは、検索された文書のように、科学的NLPタスクに潜在的な利点を提供する。
ユーザがモデル出力を検証するために検索されたドキュメントを検証し、探索することができるため、この証拠は信頼性を高める。
ALM世代における不確実性の定量化は、検索されたテキストと信頼性スコアにより、科学的応用のための包括的で信頼性の高いモデルに寄与する。
しかし、特に科学的文脈において、ALMに対するUQの研究は限られている。
本研究は、ALMにおけるUQの包括的評価を行い、科学的課題に焦点をあてることで、このギャップに対処することを目的とする。
本研究では,事前学習・検索データとして科学的知識を組み込んだ場合の不確実性スコアの変化を調査し,不確実性スコアとモデル生成出力の精度との関係について検討する。
科学的知識のみで事前学習されたモデルと比較して,検索データが予測生成に自信を持つ傾向にあるため,既存のALMは科学的知識に精通している。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
事前訓練または検索コーパスとして提供される科学的知識は、この問題を軽減する助けにはならない。
コード、データ、ダッシュボードはhttps://github.com/pnnl/EXPERT2.comでリリースしました。
関連論文リスト
- Quantitative Insights into Language Model Usage and Trust in Academia: An Empirical Study [29.750000639372203]
LMの使用範囲、アウトプットに対するユーザの信頼度、および現実世界の開発に優先すべき課題について、量的証拠に顕著なギャップがある。
本研究は,私立学校で125名を対象に調査を行い,前処理後の88点のデータを得た。
定量的分析と質的証拠により,信頼度は有意な変動がみられた。
論文 参考訳(メタデータ) (2024-09-13T20:45:50Z) - RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing [0.2302001830524133]
本稿では,検索言語モデル (RALM) に関する総合的な概要の欠如について論じる。
本稿では、Retrievers、Language Models、Augmentationsなど、ALMの本質的なコンポーネントについて論じる。
RALMは、翻訳や対話システムから知識集約アプリケーションまで、様々なタスクにおいて有用性を示す。
論文 参考訳(メタデータ) (2024-04-30T13:14:51Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models [54.55088169443828]
CoN(Chain-of-Noting)は、ノイズや無関係な文書、未知のシナリオの処理において、ALMの堅牢性を改善することを目的とした、新しいアプローチである。
CoNは、完全にノイズの多い検索された文書が与えられるEMスコアの+7.9と、トレーニング済みの知識範囲外にあるリアルタイム質問に対する拒絶率+10.5の平均的な改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T18:54:53Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Evaluating the Effectiveness of Retrieval-Augmented Large Language
Models in Scientific Document Reasoning [0.0]
LLM(Large Language Model)は、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。
Retrieval-augmented LLMは、外部データソースから関連する情報を取得することによって、これらの問題を解決するための非パラメトリックなアプローチを提供する。
我々はこれらのモデルを科学的文書推論タスクで行う能力において批判的に評価する。
論文 参考訳(メタデータ) (2023-11-07T21:09:57Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。