論文の概要: Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms
- arxiv url: http://arxiv.org/abs/2605.08496v1
- Date: Fri, 08 May 2026 21:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.686193
- Title: Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms
- Title(参考訳): 潜在的個性アライメント : 罪悪感を和らげることなく無害を改善する
- Authors: Linh Le, David Williams-King, Mohamed Amine Merzouk, Aton Kamanda, Adam Oberman,
- Abstract要約: ラテント・パーソナリティ・アライメント(Latent Personality Alignment, LPA)は、特定の有害な行動ではなく、抽象的パーソナリティ特性のモデルを訓練することによって堅牢性を達成する、サンプル効率のよい防御法である。
LPAは、100未満の特性ステートメントと潜在敵のトレーニングを使用して、150k以上の例でトレーニングされたメソッドに対して、同等の攻撃成功率を達成する。
以上の結果から,人格に基づくアライメントは,最小限のコストでロバスト・ディフェンスを構築するための原則的アプローチを提供することが示された。
- 参考スコア(独自算出の注目度): 3.121353276954014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current adversarial robustness methods for large language models require extensive datasets of harmful prompts (thousands to hundreds of thousands of examples), yet remain vulnerable to novel attack vectors and distributional shifts. We propose Latent Personality Alignment (LPA), a sample-efficient defense that achieves robustness by training models on abstract personality traits rather than specific harmful behaviors. Using fewer than 100 trait statements and latent adversarial training, LPA achieves comparable attack success rates to methods trained on 150k+ examples, while maintaining superior utility. Critically, LPA generalizes better to unseen attack distributions, reducing misclassification rates by 2.6x compared to baseline across six harm benchmarks -- without ever seeing harmful examples during training. Our results demonstrate that personality-based alignment offers a principled approach to building robust defenses with minimal cost.
- Abstract(参考訳): 大規模言語モデルの現在の敵対的堅牢性手法は、有害なプロンプト(数十万件から数十万件の例)の広範なデータセットを必要とするが、新しい攻撃ベクトルや分布シフトに弱いままである。
本研究では,特定の有害な行動ではなく,抽象的性格特性のモデルを用いて,ロバスト性を実現するために,サンプル効率の良い防御法であるLatent Personality Alignment(LPA)を提案する。
LPAは、100未満の特性ステートメントと潜在敵のトレーニングを使用して、150k以上の例でトレーニングされたメソッドに対して、同等の攻撃成功率を達成し、優れたユーティリティを維持している。
クリティカルな点として、LPAは攻撃の見当たらない分布を一般化し、トレーニング中に有害な例を見ることなく、6つの有害ベンチマークのベースラインに対して、誤分類率を2.6倍に削減する。
以上の結果から,人格に基づくアライメントは,最小限のコストでロバスト・ディフェンスを構築するための原則的アプローチを提供することが示された。
関連論文リスト
- Information Theoretic Adversarial Training of Large Language Models [26.056920129810294]
WARDENは、大規模言語モデルのための、分散的に堅牢な敵対的トレーニングフレームワークである。
経験的トレーニング分布を中心に設定されたf分割あいまいさを通じて、敵の例を動的に重み付けする。
これは、CAT-、CAPO-、MixATベースのベースラインに匹敵する計算およびユーティリティコストによる攻撃成功率を大幅に削減する。
論文 参考訳(メタデータ) (2026-05-06T20:20:09Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Effective Targeted Attacks for Adversarial Self-Supervised Learning [58.14233572578723]
ラベル情報を持たないモデルにおいて堅牢性を達成する手段として、教師なしの敵訓練(AT)が強調されている。
本稿では,敵のSSLフレームワークを効果的に生成するために,敵の攻撃を標的とした新たな正のマイニングを提案する。
提案手法は,非コントラスト型SSLフレームワークに適用した場合のロバストネスの大幅な向上と,コントラスト型SSLフレームワークによるロバストネスの向上を示す。
論文 参考訳(メタデータ) (2022-10-19T11:43:39Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Attack as Defense: Characterizing Adversarial Examples using Robustness [9.020456982421958]
本稿では,攻撃を防御(A2D)と呼ぶ新しい防御フレームワークを提案する。
A2Dは、堅牢性評価のために入力を攻撃するコストを使用し、これらの堅牢度の低い例を逆数と識別します。
MNIST、CIFAR10、ImageNetの実験結果は、A2Dが最近の有望なアプローチよりも効果的であることを示している。
論文 参考訳(メタデータ) (2021-03-13T06:29:13Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。