論文の概要: Test-Time Safety Alignment
- arxiv url: http://arxiv.org/abs/2604.26167v1
- Date: Tue, 28 Apr 2026 23:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.193178
- Title: Test-Time Safety Alignment
- Title(参考訳): テスト時間安全アライメント
- Authors: Baturay Saglam, Dionysis Kalogerias,
- Abstract要約: 入力単語の埋め込みは、一致したモデル応答のセマンティックな有害性を最小限に抑えるために、サブレキシカルな方法で最適化できることを示す。
提案手法では,入力埋め込みに関して,ブラックボックステキストモデレーションAPIのゼロ階勾配推定を用いる。
実験の結果,提案手法は標準安全ベンチマークにおいて,すべての安全フラグ応答を中和できることがわかった。
- 参考スコア(独自算出の注目度): 3.9202238580555417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that a model's input word embeddings can serve as effective control variables for steering its behavior toward outputs that satisfy desired properties. However, this has only been demonstrated for pretrained text-completion models on the relatively simple objective of reducing surface-level profanity in short continuations. A natural and practically important question is how well input embeddings can control aligned models, which produce an imbalanced bimodal refuse-or-comply output distribution rather than the smooth distribution characteristic of open-ended generation. We explore this in the context of safety, showing that input word embeddings can be optimized in a sub-lexical manner to minimize the semantic harmfulness of aligned model responses. Our approach uses zeroth-order gradient estimation of a black-box text-moderation API with respect to the input embeddings, and then applies gradient descent on these embeddings to minimize the harmfulness of the generated text. Experiments show that the proposed method can neutralize every safety-flagged response on standard safety benchmarks.
- Abstract(参考訳): 近年の研究では、入力単語の埋め込みは、望ましい特性を満たす出力に対して、その振る舞いを制御するための効果的な制御変数として機能することが示されている。
しかし、これは短い継続で表面レベルの曖昧さを減らすという比較的単純な目的において、事前訓練されたテキスト補完モデルに対してのみ実証されている。
自然かつ実用的に重要な疑問は、入力埋め込みが整列モデルをどのように制御できるかである。
我々は、入力単語の埋め込みをサブレキシカルな方法で最適化し、一致したモデル応答のセマンティックな有害性を最小化できることを示す。
提案手法では,入力埋め込みに対するブラックボックステキストモデレーションAPIのゼロ階勾配推定を用いて,これらの埋め込みに勾配勾配を適用して生成したテキストの有害性を最小化する。
実験の結果,提案手法は標準安全ベンチマークにおいて,すべての安全フラグ応答を中和できることがわかった。
関連論文リスト
- Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions [35.28819408507869]
また、NSFW(Not Safe for Work)コンテンツを作成し、社会的偏見を示す可能性を懸念している。
本稿では,安全な領域に埋め込まれたテキストの埋め込みを制限するために,埋め込み空間における意味方向ベクトルを同定する,新たな自己発見手法を提案する。
本手法は, 拡散モデルにより生ずるNSFW含量と社会的バイアスを, 最先端のベースラインと比較して効果的に低減することができる。
論文 参考訳(メタデータ) (2025-05-21T12:10:26Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Distributional Surgery for Language Model Activations [23.655132758081916]
本稿では、アクティベーションの修正により、望ましくないコンテンツの世代を検出・緩和する新しい2段階のアプローチを提案する。
本研究は,注目ヘッドを変換する階層的分散ステアリングポリシーを提案する。
複数の言語モデルやデータセットにまたがる経験的評価は,提案手法が望ましくない出力の発生を減らす上で,ベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2025-01-27T04:00:38Z) - Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions [20.487079380753876]
本研究では,ある空間から一様にサンプリングされた雑音によってバニラ属性を増大させる一様平滑化手法を提案する。
攻撃領域内の全ての摂動に対して、摂動試料の均一なスムーズな属性と非摂動試料とのコサイン類似性を低くすることが保証された。
論文 参考訳(メタデータ) (2024-05-10T09:56:02Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。