論文の概要: Improving Large Language Model Safety with Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2506.11938v1
- Date: Fri, 13 Jun 2025 16:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.882067
- Title: Improving Large Language Model Safety with Contrastive Representation Learning
- Title(参考訳): コントラスト表現学習による大規模言語モデルの安全性向上
- Authors: Samuel Simko, Mrinmaya Sachan, Bernhard Schölkopf, Zhijing Jin,
- Abstract要約: 大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。
多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。
対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
- 参考スコア(独自算出の注目度): 92.79965952162298
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are powerful tools with profound societal impacts, yet their ability to generate responses to diverse and uncontrolled inputs leaves them vulnerable to adversarial attacks. While existing defenses often struggle to generalize across varying attack types, recent advancements in representation engineering offer promising alternatives. In this work, we propose a defense framework that formulates model defense as a contrastive representation learning (CRL) problem. Our method finetunes a model using a triplet-based loss combined with adversarial hard negative mining to encourage separation between benign and harmful representations. Our experimental results across multiple models demonstrate that our approach outperforms prior representation engineering-based defenses, improving robustness against both input-level and embedding-space attacks without compromising standard performance. Our code is available at https://github.com/samuelsimko/crl-llm-defense
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会的影響が深い強力なツールであるが、多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。
既存の防御は様々な攻撃タイプにまたがる一般化に苦慮することが多いが、最近の表現工学の進歩は有望な代替手段を提供する。
本研究では,CRL問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
本手法は,3重項に基づく損失と反対方向の硬質負のマイニングを組み合わせたモデルを用いて,良性表現と有害表現の分離を促進する。
複数のモデルにまたがる実験結果から,我々の手法は先行表現技術による防御よりも優れており,標準性能を損なうことなく,入力レベルと埋め込みスペースの攻撃に対する堅牢性を向上することが示された。
私たちのコードはhttps://github.com/samuelsimko/crl-llm-defenseで利用可能です。
関連論文リスト
- MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Scaling Trends in Language Model Robustness [7.725206196110384]
言語モデルのロバスト性は,いくつかの分類課題,モデルファミリー,敵対的攻撃にまたがって研究される。
明確な安全性トレーニングがなければ、より大きなモデルの方が一貫して堅牢ではないことが分かっています。
攻撃の規模は、研究対象の全モデルにまたがる敵の訓練をはるかに上回るが、より大きな敵の訓練を受けたモデルは、長期的には防衛上の優位性をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。