論文の概要: Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks
- arxiv url: http://arxiv.org/abs/2402.10527v2
- Date: Mon, 16 Sep 2024 17:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:55:35.070634
- Title: Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks
- Title(参考訳): クエリ効率サンプリング攻撃による大規模言語モデルにおけるバイオメディカル知識の堅牢性の評価
- Authors: R. Patrick Xian, Alex J. Lee, Satvik Lolla, Vincent Wang, Qiming Cui, Russell Ro, Reza Abbasi-Asl,
- Abstract要約: 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
- 参考スコア(独自算出の注目度): 0.6282171844772422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing depth of parametric domain knowledge in large language models (LLMs) is fueling their rapid deployment in real-world applications. Understanding model vulnerabilities in high-stakes and knowledge-intensive tasks is essential for quantifying the trustworthiness of model predictions and regulating their use. The recent discovery of named entities as adversarial examples (i.e. adversarial entities) in natural language processing tasks raises questions about their potential impact on the knowledge robustness of pre-trained and finetuned LLMs in high-stakes and specialized domains. We examined the use of type-consistent entity substitution as a template for collecting adversarial entities for billion-parameter LLMs with biomedical knowledge. To this end, we developed an embedding-space attack based on powerscaled distance-weighted sampling to assess the robustness of their biomedical knowledge with a low query budget and controllable coverage. Our method has favorable query efficiency and scaling over alternative approaches based on random sampling and blackbox gradient-guided search, which we demonstrated for adversarial distractor generation in biomedical question answering. Subsequent failure mode analysis uncovered two regimes of adversarial entities on the attack surface with distinct characteristics and we showed that entity substitution attacks can manipulate token-wise Shapley value explanations, which become deceptive in this setting. Our approach complements standard evaluations for high-capacity models and the results highlight the brittleness of domain knowledge in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
モデル予測の信頼性を定量化し、それらの使用を規制するためには、高取り分と知識集約的なタスクにおけるモデルの脆弱性を理解することが不可欠である。
自然言語処理タスクにおける敵的実体(すなわち、敵対的実体)として最近発見された名前付き実体は、事前訓練された、微調整されたLLMの高度な領域における知識の堅牢性に対する潜在的な影響についての疑問を提起する。
バイオメディカル知識を生かした10億パラメータのLDMに対して, 敵対的エンティティを収集するためのテンプレートとして, タイプ一貫性エンティティ置換を用いる方法を検討した。
そこで我々は,バイオメディカル知識のロバスト性を低照会予算と制御可能なカバレッジで評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
提案手法は, ランダムサンプリングとブラックボックス勾配誘導探索に基づく代替手法よりも, クエリ効率とスケーリングが良好であり, バイオメディカル質問応答において, 対向的トラクタ生成を実証した。
その後の障害モード解析により,攻撃面に異なる特徴を持つ2つの逆転体が存在することが判明し,トークンワイドシェープ値の説明を操作できることが判明した。
提案手法は,高容量モデルに対する標準評価を補完するものであり,LLMにおけるドメイン知識の脆さを浮き彫りにする。
関連論文リスト
- Adapter-based Approaches to Knowledge-enhanced Language Models -- A Survey [48.52320309766703]
知識強化言語モデル(KELM)は、大規模言語モデルとドメイン固有の知識のギャップを埋めるための有望なツールとして登場した。
KELMsは知識グラフ(KGs)を利用することで、より現実的な精度と幻覚を達成することができる
論文 参考訳(メタデータ) (2024-11-25T14:10:24Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - Systematically Analyzing Prompt Injection Vulnerabilities in Diverse LLM Architectures [5.062846614331549]
本研究では,36大言語モデル(LLM)の各種インジェクション攻撃に対する脆弱性を系統的に解析する。
144回のインジェクション試験で, モデルパラメータと脆弱性との間に強い相関が認められた。
論文 参考訳(メタデータ) (2024-10-28T18:55:21Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks [10.909463767558023]
本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。
提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - Unmasking Dementia Detection by Masking Input Gradients: A JSM Approach
to Model Interpretability and Precision [1.5501208213584152]
本稿では,多段階進行に対するアルツハイマー病(AD)分類の解釈可能なマルチモーダルモデルを導入し,ヤコビアン・サリエンシ・マップ(JSM)をモダリティに依存しないツールとして組み込んだ。
アブレーション研究を含む評価では、モデルデバッグと解釈にJSMを用いることの有効性が示され、モデル精度も著しく向上した。
論文 参考訳(メタデータ) (2024-02-25T06:53:35Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Unsupervised deep learning techniques for powdery mildew recognition
based on multispectral imaging [63.62764375279861]
本稿では,キュウリ葉の粉状ミドウを自動的に認識する深層学習手法を提案する。
マルチスペクトルイメージングデータに適用した教師なし深層学習技術に焦点をあてる。
本稿では, オートエンコーダアーキテクチャを用いて, 疾患検出のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-12-20T13:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。