論文の概要: Accidental Misalignment: Fine-Tuning Language Models Induces Unexpected Vulnerability
- arxiv url: http://arxiv.org/abs/2505.16789v1
- Date: Thu, 22 May 2025 15:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.39924
- Title: Accidental Misalignment: Fine-Tuning Language Models Induces Unexpected Vulnerability
- Title(参考訳): Accidental Misalignment: 微調整言語モデルが予期せぬ脆弱性を引き起こす
- Authors: Punya Syon Pandey, Samuel Simko, Kellin Pelrine, Zhijing Jin,
- Abstract要約: 本研究では,微調整データの特徴から生じる異常,予期しない脆弱性について検討する。
まず、言語的特徴、意味的類似性、およびデータセット内の毒性などの潜在的な相関要因を同定する。
次に、これらの微調整モデルの逆性能を評価し、データセット因子が攻撃成功率とどのように相関するかを評価する。
- 参考スコア(独自算出の注目度): 13.197807179926428
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models gain popularity, their vulnerability to adversarial attacks remains a primary concern. While fine-tuning models on domain-specific datasets is often employed to improve model performance, it can introduce vulnerabilities within the underlying model. In this work, we investigate Accidental Misalignment, unexpected vulnerabilities arising from characteristics of fine-tuning data. We begin by identifying potential correlation factors such as linguistic features, semantic similarity, and toxicity within our experimental datasets. We then evaluate the adversarial performance of these fine-tuned models and assess how dataset factors correlate with attack success rates. Lastly, we explore potential causal links, offering new insights into adversarial defense strategies and highlighting the crucial role of dataset design in preserving model alignment. Our code is available at https://github.com/psyonp/accidental_misalignment.
- Abstract(参考訳): 大きな言語モデルの人気が高まるにつれ、敵の攻撃に対する脆弱性は依然として主要な関心事である。
ドメイン固有のデータセットの微調整モデルは、モデルパフォーマンスを改善するためにしばしば使用されるが、基盤となるモデル内に脆弱性を導入することができる。
本研究では,微調整データの特徴から生じる異常,予期せぬ脆弱性について検討する。
まず、実験データセット内の言語的特徴、意味的類似性、毒性などの潜在的な相関要因を同定することから始める。
次に、これらの微調整モデルの逆性能を評価し、データセット因子が攻撃成功率とどのように相関するかを評価する。
最後に、潜在的な因果関係について検討し、敵防衛戦略に対する新たな洞察を提供し、モデルアライメントを維持する上でのデータセット設計の重要性を強調します。
私たちのコードはhttps://github.com/psyonp/accidental_misalignment.comで利用可能です。
関連論文リスト
- Detecting Instruction Fine-tuning Attack on Language Models with Influence Function [6.760293300577228]
インストラクションの微調整攻撃は、モデルアライメントを損なうとともに、現実のデプロイメントにおいてセキュリティリスクを引き起こす。
本稿では,影響関数を用いて攻撃を検知・緩和する,シンプルで効果的な手法を提案する。
我々は,大規模データセットに対する言語モデル命令の微調整攻撃を検出するための影響関数を初めて適用した。
論文 参考訳(メタデータ) (2025-04-12T00:50:28Z) - The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models [10.524960491460945]
微調整攻撃は、潜在的に有害な振る舞いを明らかにするために、大きな言語モデルを利用することができる。
本稿では、微調整攻撃を受けた場合の思考の連鎖に基づく推論モデルDeepSeekの性能について検討する。
思考の連鎖(Chain of Thought)の脆弱性に光を当てて、微調整による攻撃と、その安全性と倫理的展開に影響を及ぼすことを目指している。
論文 参考訳(メタデータ) (2025-02-03T10:28:26Z) - Investigating Imperceptibility of Adversarial Attacks on Tabular Data: An Empirical Analysis [1.6693963355435217]
敵対的攻撃は、機械学習モデルに対する潜在的な脅威である。
これらの攻撃は入力データに対する知覚不能な摂動を通じて誤った予測を引き起こす。
本研究は、敵攻撃の非受容性を評価するための重要な特徴とそれに対応する指標のセットを提案する。
論文 参考訳(メタデータ) (2024-07-16T07:55:25Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Unveiling Safety Vulnerabilities of Large Language Models [4.562678399685183]
本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。
各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。
脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-07T16:50:33Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Feature Importance-aware Transferable Adversarial Attacks [46.12026564065764]
既存の移動可能な攻撃は、特徴を無差別に歪ませることで敵の例を作る傾向がある。
このようなブルート力の劣化は、モデル固有の局所最適化を敵の例に導入するであろうと論じる。
対照的に、重要なオブジェクト認識機能を妨害する特徴重要度認識攻撃(FIA)を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:13:29Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。