論文の概要: A Method for Enhancing the Safety of Large Model Generation Based on Multi-dimensional Attack and Defense
- arxiv url: http://arxiv.org/abs/2501.00517v1
- Date: Tue, 31 Dec 2024 16:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:09.817974
- Title: A Method for Enhancing the Safety of Large Model Generation Based on Multi-dimensional Attack and Defense
- Title(参考訳): 多次元攻撃・防御に基づく大規模モデル生成の安全性向上手法
- Authors: Keke Zhai,
- Abstract要約: 現在、大規模なモデルは、複雑な攻撃命令に直面した場合に有害なコンテンツを生成する傾向にある。
本稿では,大規模モデルの生成的安全性を高めるため,多次元攻撃防御に対応するデータ構築手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Currently, large models are prone to generating harmful content when faced with complex attack instructions, significantly reducing their defensive capabilities. To address this issue, this paper proposes a method based on constructing data aligned with multi-dimensional attack defense to enhance the generative security of large models. The core of our method lies in improving the effectiveness of safe alignment learning for large models by innova-tively increasing the diversity of attack instruction dimensions and the accuracy of generat-ing safe responses. To validate the effectiveness of our method, beyond existing security evaluation benchmarks, we additionally designed new security evaluation benchmarks and conducted comparative experiments using Llama3.2 as the baseline model. The final ex-perimental results demonstrate that our method can significantly improve the generative security of large models under complex instructional attacks, while also maintaining and enhancing the models' general capabilities.
- Abstract(参考訳): 現在、大規模なモデルは複雑な攻撃命令に直面して有害なコンテンツを生成する傾向にあり、防御能力は著しく低下している。
そこで本研究では,大規模モデルの生成セキュリティを高めるため,多次元攻撃防御に対応するデータ構築手法を提案する。
提案手法のコアとなるのは,攻撃指示の多様性と世代別安全応答の精度を増大させることにより,大規模モデルに対する安全なアライメント学習の有効性を向上させることである。
既存のセキュリティ評価ベンチマークを超えて,本手法の有効性を検証するため,新たなセキュリティ評価ベンチマークを設計し,Llama3.2をベースラインモデルとして比較実験を行った。
提案手法は, 複雑な命令攻撃下での大規模モデルの生成安全性を向上し, モデルの汎用性を維持・向上できることを示す。
関連論文リスト
- MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense [43.71365087852274]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。
包括的で整合性があり、信頼性の高いベンチマークが欠如していることは、非常に大きな課題である。
この致命的なギャップに対処するため、モデル反転攻撃と防御のための最初の実用的なベンチマーク(textitMIBench)を紹介した。
論文 参考訳(メタデータ) (2024-10-07T16:13:49Z) - Model Developmental Safety: A Retention-Centric Method and Applications in Vision-Language Models [75.8161094916476]
本稿では,事前学習された視覚言語モデル,特にCLIPモデルの開発手法について検討する。
自律走行とシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Robust Image Classification: Defensive Strategies against FGSM and PGD Adversarial Attacks [0.0]
敵対的攻撃は、画像分類におけるディープラーニングモデルの堅牢性に重大な脅威をもたらす。
本稿では,ニューラルネットワークのレジリエンスを高めるために,これらの攻撃に対する防御機構を探索し,洗練する。
論文 参考訳(メタデータ) (2024-08-20T02:00:02Z) - AttackNet: Enhancing Biometric Security via Tailored Convolutional Neural Network Architectures for Liveness Detection [20.821562115822182]
アタックネット(AttackNet)は、生体認証システムにおける偽りの脅威に対処するために設計された、難解な畳み込みニューラルネットワークアーキテクチャである。
低レベルの特徴抽出から高レベルのパターン識別へシームレスに移行する、階層化された防御機構を提供する。
多様なデータセットにまたがってモデルをベンチマークすることは、その長所を証明し、現代のモデルと比較して優れたパフォーマンス指標を示す。
論文 参考訳(メタデータ) (2024-02-06T07:22:50Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Improving Deep Learning Model Robustness Against Adversarial Attack by
Increasing the Network Capacity [4.605037293860087]
本稿では、ディープラーニングにおけるセキュリティ問題と分析について、実験を用いて、よりレジリエントなモデルの構築に向けて検討する。
敵攻撃に対するDLモデルの堅牢性を改善するために,新たなアプローチの強みと弱みを識別する実験を行った。
論文 参考訳(メタデータ) (2022-04-24T21:04:17Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。