論文の概要: LLM Robustness Against Misinformation in Biomedical Question Answering
- arxiv url: http://arxiv.org/abs/2410.21330v1
- Date: Sun, 27 Oct 2024 16:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:43.225295
- Title: LLM Robustness Against Misinformation in Biomedical Question Answering
- Title(参考訳): バイオメディカル質問応答における誤情報に対するLDMロバスト性
- Authors: Alexander Bondarenko, Adrian Viehweger,
- Abstract要約: 探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
- 参考スコア(独自算出の注目度): 50.98256373698759
- License:
- Abstract: The retrieval-augmented generation (RAG) approach is used to reduce the confabulation of large language models (LLMs) for question answering by retrieving and providing additional context coming from external knowledge sources (e.g., by adding the context to the prompt). However, injecting incorrect information can mislead the LLM to generate an incorrect answer. In this paper, we evaluate the effectiveness and robustness of four LLMs against misinformation - Gemma 2, GPT-4o-mini, Llama~3.1, and Mixtral - in answering biomedical questions. We assess the answer accuracy on yes-no and free-form questions in three scenarios: vanilla LLM answers (no context is provided), "perfect" augmented generation (correct context is provided), and prompt-injection attacks (incorrect context is provided). Our results show that Llama 3.1 (70B parameters) achieves the highest accuracy in both vanilla (0.651) and "perfect" RAG (0.802) scenarios. However, the accuracy gap between the models almost disappears with "perfect" RAG, suggesting its potential to mitigate the LLM's size-related effectiveness differences. We further evaluate the ability of the LLMs to generate malicious context on one hand and the LLM's robustness against prompt-injection attacks on the other hand, using metrics such as attack success rate (ASR), accuracy under attack, and accuracy drop. As adversaries, we use the same four LLMs (Gemma 2, GPT-4o-mini, Llama 3.1, and Mixtral) to generate incorrect context that is injected in the target model's prompt. Interestingly, Llama is shown to be the most effective adversary, causing accuracy drops of up to 0.48 for vanilla answers and 0.63 for "perfect" RAG across target models. Our analysis reveals that robustness rankings vary depending on the evaluation measure, highlighting the complexity of assessing LLM resilience to adversarial attacks.
- Abstract(参考訳): 検索強化生成(RAG)アプローチは、外部知識ソース(例えば、プロンプトにコンテキストを追加することで)から追加のコンテキストを検索して提供することにより、質問応答のための大きな言語モデル(LLM)の折り畳みを低減するために使用される。
しかし、誤った情報を注入すると、LCMを誤認して誤った回答が生成される。
本稿では, バイオメディカルな疑問に答える上で, 4つのLDM(Gemma 2, GPT-4o-mini, Llama~3.1, Mixtral)の有効性とロバスト性を評価する。
バニラLSM回答(文脈は提供されない)、完全拡張生成(正確なコンテキストは提供されない)、即時インジェクション攻撃(正しいコンテキストは提供されない)の3つのシナリオにおいて、イエスノーおよびフリーフォームの質問に対する回答精度を評価する。
Llama 3.1 (70Bパラメータ) はバニラ (0.651) と "perfect" RAG (0.802) の両方のシナリオで最も精度が高い。
しかしながら、モデル間の精度のギャップは「完璧な」RAGによってほぼ消失し、LLMのサイズに関連した効果の差を緩和する可能性が示唆された。
さらに,攻撃成功率 (ASR) , 攻撃時の精度, 精度低下などの指標を用いて, LLMが悪質な文脈を生成する能力と, LLMの攻撃に対する堅牢性を評価した。
敵として、同じ4つのLLM(Gemma 2, GPT-4o-mini, Llama 3.1, Mixtral)を使用して、ターゲットモデルのプロンプトに注入された誤ったコンテキストを生成する。
興味深いことに、Llamaは最も効果的な敵であることが示され、バニラ回答の精度は0.48まで低下し、ターゲットモデル全体のRAGは0.63まで低下した。
分析の結果,ロバストネスランキングは評価基準によって異なり,敵攻撃に対するLLMレジリエンスの評価の複雑さが強調された。
関連論文リスト
- LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。
我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。
実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文 参考訳(メタデータ) (2024-03-30T22:41:05Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。