論文の概要: Confidence Elicitation: A New Attack Vector for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.04643v1
- Date: Fri, 07 Feb 2025 04:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:40.793596
- Title: Confidence Elicitation: A New Attack Vector for Large Language Models
- Title(参考訳): Confidence Elicitation: 大規模言語モデルのための新しい攻撃ベクトル
- Authors: Brian Formento, Chuan Sheng Foo, See-Kiong Ng,
- Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)は、以前の小さな言語と同様、敵攻撃に苦しむ。
クローズドソースモデルの導入により、生成された出力とは別に、モデルに関する情報は得られない。
これは、現在のブラックボックス攻撃が最終予測を利用して攻撃が成功したかどうかを検出することを意味する。
本研究は,ブラックボックスアクセスのみを分類した状態で,出力確率を用いた攻撃誘導の可能性について検討し,実証する。
- 参考スコア(独自算出の注目度): 32.22764815262567
- License:
- Abstract: A fundamental issue in deep learning has been adversarial robustness. As these systems have scaled, such issues have persisted. Currently, large language models (LLMs) with billions of parameters suffer from adversarial attacks just like their earlier, smaller counterparts. However, the threat models have changed. Previously, having gray-box access, where input embeddings or output logits/probabilities were visible to the user, might have been reasonable. However, with the introduction of closed-source models, no information about the model is available apart from the generated output. This means that current black-box attacks can only utilize the final prediction to detect if an attack is successful. In this work, we investigate and demonstrate the potential of attack guidance, akin to using output probabilities, while having only black-box access in a classification setting. This is achieved through the ability to elicit confidence from the model. We empirically show that the elicited confidence is calibrated and not hallucinated for current LLMs. By minimizing the elicited confidence, we can therefore increase the likelihood of misclassification. Our new proposed paradigm demonstrates promising state-of-the-art results on three datasets across two models (LLaMA-3-8B-Instruct and Mistral-7B-Instruct-V0.3) when comparing our technique to existing hard-label black-box attack methods that introduce word-level substitutions.
- Abstract(参考訳): ディープラーニングにおける根本的な問題は、敵対的な堅牢性である。
これらのシステムがスケールするにつれて、このような問題は続いている。
現在、数十億のパラメータを持つ大規模言語モデル(LLM)は、以前の小さな言語モデルと同様、敵攻撃に悩まされている。
しかし、脅威モデルが変わった。
これまでは、入力の埋め込みや出力のロジット/確率がユーザの目に見えていたグレーボックスアクセスは、合理的だったかもしれない。
しかし、クローズドソースモデルの導入により、生成された出力とは別に、モデルに関する情報は得られない。
これは、現在のブラックボックス攻撃が最終予測を利用して攻撃が成功したかどうかを検出することを意味する。
本研究は,ブラックボックスアクセスのみを分類した状態で,出力確率を用いた攻撃誘導の可能性について検討し,実証する。
これは、モデルから信頼を引き出す能力によって達成される。
提案手法は, 既往のLCMに対して, 信頼度が調整され, 幻覚的でないことを実証的に示す。
提案された信頼度を最小化することにより、誤分類の可能性を高めることができる。
提案手法は,2つのモデル(LLaMA-3-8B-インストラクトとMistral-7B-インストラクト-V0.3)にまたがって,単語レベルの置換を導入した既存のハードラベルブラックボックスアタック手法と比較し,最先端の予測結果を示す。
関連論文リスト
- Hard-Label Black-Box Attacks on 3D Point Clouds [66.52447238776482]
そこで本研究では,新しいスペクトル認識決定境界アルゴリズムに基づく新しい3D攻撃手法を提案する。
実験により,攻撃性能と対向品質の点で,既存の白黒ボックス攻撃者よりも競合性が高いことが示された。
論文 参考訳(メタデータ) (2024-11-30T09:05:02Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Imitation Attacks and Defenses for Black-box Machine Translation Systems [86.92681013449682]
ブラックボックス機械翻訳(MT)システムは高い商業価値を持ち、エラーはコストがかかる。
MTシステムはモノリンガル文を問合せし,その出力を模倣する訓練モデルを用いて盗むことができることを示す。
本稿では,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。
論文 参考訳(メタデータ) (2020-04-30T17:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。