論文の概要: Zero-shot sampling of adversarial entities in biomedical question
answering
- arxiv url: http://arxiv.org/abs/2402.10527v1
- Date: Fri, 16 Feb 2024 09:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-19 16:50:09.826431
- Title: Zero-shot sampling of adversarial entities in biomedical question
answering
- Title(参考訳): 生物医学的質問応答における相手のゼロショットサンプリング
- Authors: R. Patrick Xian, Alex J. Lee, Vincent Wang, Qiming Cui, Russell Ro,
Reza Abbasi-Asl
- Abstract要約: 高精度かつ知識集約的なタスクでは、モデル予測の信頼性を定量化する上で、モデルの脆弱性を理解することが不可欠である。
そこで本研究では,多種多様な対向性物体をインタプリタとして検出するために,埋め込み空間におけるパワースケール距離重み付きサンプリング手法を提案する。
本研究では,大規模言語モデルにおけるドメイン知識の脆さについて考察し,高容量モデルに対する標準評価の欠点を明らかにした。
- 参考スコア(独自算出の注目度): 0.6990493129893112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing depth of parametric domain knowledge in large language models
(LLMs) is fueling their rapid deployment in real-world applications. In
high-stakes and knowledge-intensive tasks, understanding model vulnerabilities
is essential for quantifying the trustworthiness of model predictions and
regulating their use. The recent discovery of named entities as adversarial
examples in natural language processing tasks raises questions about their
potential guises in other settings. Here, we propose a powerscaled
distance-weighted sampling scheme in embedding space to discover diverse
adversarial entities as distractors. We demonstrate its advantage over random
sampling in adversarial question answering on biomedical topics. Our approach
enables the exploration of different regions on the attack surface, which
reveals two regimes of adversarial entities that markedly differ in their
characteristics. Moreover, we show that the attacks successfully manipulate
token-wise Shapley value explanations, which become deceptive in the
adversarial setting. Our investigations illustrate the brittleness of domain
knowledge in LLMs and reveal a shortcoming of standard evaluations for
high-capacity models.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
高スループットと知識集約的なタスクでは、モデルの脆弱性を理解することは、モデル予測の信頼性を定量化し、それらの使用を規制するために不可欠である。
最近、自然言語処理タスクの逆例として名前付きエンティティが発見されたことで、他の設定での潜在的なガイダンスに関する疑問が持ち上がった。
そこで本研究では,多種多様な逆対象を注意散らしとして発見するために,埋め込み空間におけるパワースケール距離重み付きサンプリング手法を提案する。
バイオメディカルトピックに対する逆問題応答におけるランダムサンプリングの利点を示す。
本手法により,攻撃面上の異なる領域の探索が可能となり,その特性に顕著な相違点が存在することが判明した。
さらに,攻撃がトークンワイドシェープ値説明の操作に成功し,相手設定で偽装となることを示す。
本研究は,LLMにおけるドメイン知識の脆さと,高容量モデルに対する標準評価の欠点を明らかにするものである。
関連論文リスト
- Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。
我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。
我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。
本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文 参考訳(メタデータ) (2025-04-11T10:18:13Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - LLM-based Agent Simulation for Maternal Health Interventions: Uncertainty Estimation and Decision-focused Evaluation [30.334268991701727]
エージェントに基づくシミュレーションは複雑な人間の行動のモデル化に不可欠である。
従来のアプローチでは、広範なドメイン知識と大規模なデータセットが必要です。
大規模言語モデル(LLM)は、幅広い世界の知識を活用することで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-03-25T20:24:47Z) - Unmasking Digital Falsehoods: A Comparative Analysis of LLM-Based Misinformation Detection Strategies [0.0]
本稿では,テキストベース,マルチモーダル,エージェント間の誤情報検出手法の比較を行う。
本研究では,異なる話題領域における誤情報検出における微調整モデル,ゼロショット学習,系統的事実チェック機構の有効性を評価する。
論文 参考訳(メタデータ) (2025-03-02T04:31:42Z) - Adapter-based Approaches to Knowledge-enhanced Language Models -- A Survey [48.52320309766703]
知識強化言語モデル(KELM)は、大規模言語モデルとドメイン固有の知識のギャップを埋めるための有望なツールとして登場した。
KELMsは知識グラフ(KGs)を利用することで、より現実的な精度と幻覚を達成することができる
論文 参考訳(メタデータ) (2024-11-25T14:10:24Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - Systematically Analyzing Prompt Injection Vulnerabilities in Diverse LLM Architectures [5.062846614331549]
本研究では,36大言語モデル(LLM)の各種インジェクション攻撃に対する脆弱性を系統的に解析する。
144回のインジェクション試験で, モデルパラメータと脆弱性との間に強い相関が認められた。
論文 参考訳(メタデータ) (2024-10-28T18:55:21Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks [10.909463767558023]
本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。
提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Unmasking Dementia Detection by Masking Input Gradients: A JSM Approach
to Model Interpretability and Precision [1.5501208213584152]
本稿では,多段階進行に対するアルツハイマー病(AD)分類の解釈可能なマルチモーダルモデルを導入し,ヤコビアン・サリエンシ・マップ(JSM)をモダリティに依存しないツールとして組み込んだ。
アブレーション研究を含む評価では、モデルデバッグと解釈にJSMを用いることの有効性が示され、モデル精度も著しく向上した。
論文 参考訳(メタデータ) (2024-02-25T06:53:35Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Unsupervised deep learning techniques for powdery mildew recognition
based on multispectral imaging [63.62764375279861]
本稿では,キュウリ葉の粉状ミドウを自動的に認識する深層学習手法を提案する。
マルチスペクトルイメージングデータに適用した教師なし深層学習技術に焦点をあてる。
本稿では, オートエンコーダアーキテクチャを用いて, 疾患検出のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-12-20T13:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。