論文の概要: Zero-shot sampling of adversarial entities in biomedical question
answering
- arxiv url: http://arxiv.org/abs/2402.10527v1
- Date: Fri, 16 Feb 2024 09:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:50:09.826431
- Title: Zero-shot sampling of adversarial entities in biomedical question
answering
- Title(参考訳): 生物医学的質問応答における相手のゼロショットサンプリング
- Authors: R. Patrick Xian, Alex J. Lee, Vincent Wang, Qiming Cui, Russell Ro,
Reza Abbasi-Asl
- Abstract要約: 高精度かつ知識集約的なタスクでは、モデル予測の信頼性を定量化する上で、モデルの脆弱性を理解することが不可欠である。
そこで本研究では,多種多様な対向性物体をインタプリタとして検出するために,埋め込み空間におけるパワースケール距離重み付きサンプリング手法を提案する。
本研究では,大規模言語モデルにおけるドメイン知識の脆さについて考察し,高容量モデルに対する標準評価の欠点を明らかにした。
- 参考スコア(独自算出の注目度): 0.6990493129893112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing depth of parametric domain knowledge in large language models
(LLMs) is fueling their rapid deployment in real-world applications. In
high-stakes and knowledge-intensive tasks, understanding model vulnerabilities
is essential for quantifying the trustworthiness of model predictions and
regulating their use. The recent discovery of named entities as adversarial
examples in natural language processing tasks raises questions about their
potential guises in other settings. Here, we propose a powerscaled
distance-weighted sampling scheme in embedding space to discover diverse
adversarial entities as distractors. We demonstrate its advantage over random
sampling in adversarial question answering on biomedical topics. Our approach
enables the exploration of different regions on the attack surface, which
reveals two regimes of adversarial entities that markedly differ in their
characteristics. Moreover, we show that the attacks successfully manipulate
token-wise Shapley value explanations, which become deceptive in the
adversarial setting. Our investigations illustrate the brittleness of domain
knowledge in LLMs and reveal a shortcoming of standard evaluations for
high-capacity models.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
高スループットと知識集約的なタスクでは、モデルの脆弱性を理解することは、モデル予測の信頼性を定量化し、それらの使用を規制するために不可欠である。
最近、自然言語処理タスクの逆例として名前付きエンティティが発見されたことで、他の設定での潜在的なガイダンスに関する疑問が持ち上がった。
そこで本研究では,多種多様な逆対象を注意散らしとして発見するために,埋め込み空間におけるパワースケール距離重み付きサンプリング手法を提案する。
バイオメディカルトピックに対する逆問題応答におけるランダムサンプリングの利点を示す。
本手法により,攻撃面上の異なる領域の探索が可能となり,その特性に顕著な相違点が存在することが判明した。
さらに,攻撃がトークンワイドシェープ値説明の操作に成功し,相手設定で偽装となることを示す。
本研究は,LLMにおけるドメイン知識の脆さと,高容量モデルに対する標準評価の欠点を明らかにするものである。
関連論文リスト
- Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models [0.5223954072121659]
汚染物質観測とアウトリーチは、認知モデルのパラメータを推定する際にしばしば問題を引き起こす。
本研究では,アモルタイズされたベイズ推定を用いたパラメータ推定のロバスト性を検証・改善する。
提案手法は実装が簡単で実用的であり,外乱検出や除去が困難な分野に適用可能である。
論文 参考訳(メタデータ) (2024-12-29T21:22:24Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - Systematically Analyzing Prompt Injection Vulnerabilities in Diverse LLM Architectures [5.062846614331549]
本研究では,36大言語モデル(LLM)の各種インジェクション攻撃に対する脆弱性を系統的に解析する。
144回のインジェクション試験で, モデルパラメータと脆弱性との間に強い相関が認められた。
論文 参考訳(メタデータ) (2024-10-28T18:55:21Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks [10.909463767558023]
本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。
提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Unsupervised deep learning techniques for powdery mildew recognition
based on multispectral imaging [63.62764375279861]
本稿では,キュウリ葉の粉状ミドウを自動的に認識する深層学習手法を提案する。
マルチスペクトルイメージングデータに適用した教師なし深層学習技術に焦点をあてる。
本稿では, オートエンコーダアーキテクチャを用いて, 疾患検出のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-12-20T13:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。