Fugu-MT 論文翻訳(概要): Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks

論文の概要: Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks

arxiv url: http://arxiv.org/abs/2402.10527v2
Date: Mon, 16 Sep 2024 17:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 02:55:35.070634
Title: Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks
Title（参考訳）: クエリ効率サンプリング攻撃による大規模言語モデルにおけるバイオメディカル知識の堅牢性の評価
Authors: R. Patrick Xian, Alex J. Lee, Satvik Lolla, Vincent Wang, Qiming Cui, Russell Ro, Reza Abbasi-Asl,
Abstract要約: 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
参考スコア（独自算出の注目度）: 0.6282171844772422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing depth of parametric domain knowledge in large language models (LLMs) is fueling their rapid deployment in real-world applications. Understanding model vulnerabilities in high-stakes and knowledge-intensive tasks is essential for quantifying the trustworthiness of model predictions and regulating their use. The recent discovery of named entities as adversarial examples (i.e. adversarial entities) in natural language processing tasks raises questions about their potential impact on the knowledge robustness of pre-trained and finetuned LLMs in high-stakes and specialized domains. We examined the use of type-consistent entity substitution as a template for collecting adversarial entities for billion-parameter LLMs with biomedical knowledge. To this end, we developed an embedding-space attack based on powerscaled distance-weighted sampling to assess the robustness of their biomedical knowledge with a low query budget and controllable coverage. Our method has favorable query efficiency and scaling over alternative approaches based on random sampling and blackbox gradient-guided search, which we demonstrated for adversarial distractor generation in biomedical question answering. Subsequent failure mode analysis uncovered two regimes of adversarial entities on the attack surface with distinct characteristics and we showed that entity substitution attacks can manipulate token-wise Shapley value explanations, which become deceptive in this setting. Our approach complements standard evaluations for high-capacity models and the results highlight the brittleness of domain knowledge in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。モデル予測の信頼性を定量化し、それらの使用を規制するためには、高取り分と知識集約的なタスクにおけるモデルの脆弱性を理解することが不可欠である。自然言語処理タスクにおける敵的実体(すなわち、敵対的実体)として最近発見された名前付き実体は、事前訓練された、微調整されたLLMの高度な領域における知識の堅牢性に対する潜在的な影響についての疑問を提起する。バイオメディカル知識を生かした10億パラメータのLDMに対して, 敵対的エンティティを収集するためのテンプレートとして, タイプ一貫性エンティティ置換を用いる方法を検討した。そこで我々は,バイオメディカル知識のロバスト性を低照会予算と制御可能なカバレッジで評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。提案手法は, ランダムサンプリングとブラックボックス勾配誘導探索に基づく代替手法よりも, クエリ効率とスケーリングが良好であり, バイオメディカル質問応答において, 対向的トラクタ生成を実証した。その後の障害モード解析により,攻撃面に異なる特徴を持つ2つの逆転体が存在することが判明し,トークンワイドシェープ値の説明を操作できることが判明した。提案手法は,高容量モデルに対する標準評価を補完するものであり,LLMにおけるドメイン知識の脆さを浮き彫りにする。

関連論文リスト

Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文参考訳（メタデータ） (2025-04-24T16:36:19Z)
A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文参考訳（メタデータ） (2025-04-11T10:18:13Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
LLM-based Agent Simulation for Maternal Health Interventions: Uncertainty Estimation and Decision-focused Evaluation [30.334268991701727]
エージェントに基づくシミュレーションは複雑な人間の行動のモデル化に不可欠である。従来のアプローチでは、広範なドメイン知識と大規模なデータセットが必要です。大規模言語モデル(LLM)は、幅広い世界の知識を活用することで、有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-03-25T20:24:47Z)
Unmasking Digital Falsehoods: A Comparative Analysis of LLM-Based Misinformation Detection Strategies [0.0]
本稿では,テキストベース,マルチモーダル,エージェント間の誤情報検出手法の比較を行う。本研究では,異なる話題領域における誤情報検出における微調整モデル,ゼロショット学習,系統的事実チェック機構の有効性を評価する。
論文参考訳（メタデータ） (2025-03-02T04:31:42Z)
Adapter-based Approaches to Knowledge-enhanced Language Models -- A Survey [48.52320309766703]
知識強化言語モデル(KELM)は、大規模言語モデルとドメイン固有の知識のギャップを埋めるための有望なツールとして登場した。 KELMsは知識グラフ(KGs)を利用することで、より現実的な精度と幻覚を達成することができる
論文参考訳（メタデータ） (2024-11-25T14:10:24Z)
HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。 Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文参考訳（メタデータ） (2024-11-11T10:02:49Z)
Systematically Analyzing Prompt Injection Vulnerabilities in Diverse LLM Architectures [5.062846614331549]
本研究では,36大言語モデル(LLM)の各種インジェクション攻撃に対する脆弱性を系統的に解析する。 144回のインジェクション試験で, モデルパラメータと脆弱性との間に強い相関が認められた。
論文参考訳（メタデータ） (2024-10-28T18:55:21Z)
Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-26T15:04:04Z)
Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks [10.909463767558023]
本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
論文参考訳（メタデータ） (2024-08-27T17:14:21Z)
Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文参考訳（メタデータ） (2024-07-29T09:55:34Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Unmasking Dementia Detection by Masking Input Gradients: A JSM Approach to Model Interpretability and Precision [1.5501208213584152]
本稿では,多段階進行に対するアルツハイマー病(AD)分類の解釈可能なマルチモーダルモデルを導入し,ヤコビアン・サリエンシ・マップ(JSM)をモダリティに依存しないツールとして組み込んだ。アブレーション研究を含む評価では、モデルデバッグと解釈にJSMを用いることの有効性が示され、モデル精度も著しく向上した。
論文参考訳（メタデータ） (2024-02-25T06:53:35Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文参考訳（メタデータ） (2023-12-18T05:42:31Z)
Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T19:57:19Z)
Unsupervised deep learning techniques for powdery mildew recognition based on multispectral imaging [63.62764375279861]
本稿では,キュウリ葉の粉状ミドウを自動的に認識する深層学習手法を提案する。マルチスペクトルイメージングデータに適用した教師なし深層学習技術に焦点をあてる。本稿では, オートエンコーダアーキテクチャを用いて, 疾患検出のための2つの手法を提案する。
論文参考訳（メタデータ） (2021-12-20T13:29:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。