論文の概要: Toward Understanding the Transferability of Adversarial Suffixes in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.22014v1
- Date: Fri, 24 Oct 2025 20:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.736325
- Title: Toward Understanding the Transferability of Adversarial Suffixes in Large Language Models
- Title(参考訳): 大規模言語モデルにおける逆接接尾辞の伝達可能性の理解に向けて
- Authors: Sarah Ball, Niki Hasrati, Alexander Robey, Avi Schwarzschild, Frauke Kreuter, Zico Kolter, Andrej Risteski,
- Abstract要約: 離散最適化ベースのjailbreaking攻撃は、入力プロンプトに付加された非意味なサフィックスを生成することを目的としている。
素早い意味的類似性は、伝達の成功と弱い相関関係にある。
これらの知見は、我々の統計的分析が攻撃成功の実践的改善にどのように変換できるかを示すために、介入実験で使用する、伝達可能性のよりきめ細かな理解につながる。
- 参考スコア(独自算出の注目度): 70.11800794130394
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Discrete optimization-based jailbreaking attacks on large language models aim to generate short, nonsensical suffixes that, when appended onto input prompts, elicit disallowed content. Notably, these suffixes are often transferable -- succeeding on prompts and models for which they were never optimized. And yet, despite the fact that transferability is surprising and empirically well-established, the field lacks a rigorous analysis of when and why transfer occurs. To fill this gap, we identify three statistical properties that strongly correlate with transfer success across numerous experimental settings: (1) how much a prompt without a suffix activates a model's internal refusal direction, (2) how strongly a suffix induces a push away from this direction, and (3) how large these shifts are in directions orthogonal to refusal. On the other hand, we find that prompt semantic similarity only weakly correlates with transfer success. These findings lead to a more fine-grained understanding of transferability, which we use in interventional experiments to showcase how our statistical analysis can translate into practical improvements in attack success.
- Abstract(参考訳): 離散最適化ベースの大規模言語モデルに対するジェイルブレイク攻撃は、入力プロンプトに付加されたコンテンツに許可された短い非意味なサフィックスを生成することを目的としている。
特に、これらの接尾辞は、しばしば転送可能であり、最適化されていないプロンプトやモデルで成功する。
しかし、トランスファー容易性は驚くべきものであり、実証的に確立されているにもかかわらず、この場はいつ、なぜ移行が起こるのかという厳密な分析を欠いている。
このギャップを埋めるために,(1) 接尾辞のないプロンプトがモデルの内的拒絶方向をどの程度活性化するか,(2) 接尾辞がその方向から押し出すか,(3) それらのシフトが直交する方向にあるか,の3つの統計的性質を同定した。
一方、素早い意味的類似性は伝達の成功と弱相関している。
これらの知見は、我々の統計的分析が攻撃成功の実践的改善にどのように変換できるかを示すために、介入実験で使用する、伝達可能性のよりきめ細かな理解につながる。
関連論文リスト
- Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Lost In Translation: Generating Adversarial Examples Robust to
Round-Trip Translation [66.33340583035374]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。
筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。
本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:43Z) - Why Does Little Robustness Help? A Further Step Towards Understanding Adversarial Transferability [23.369773251447636]
DNNの逆例(AE)は転送可能であることが示されている。
本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出す。
論文 参考訳(メタデータ) (2023-07-15T19:20:49Z) - Transfer Attacks Revisited: A Large-Scale Empirical Study in Real
Computer Vision Settings [64.37621685052571]
我々は,主要なクラウドベースのMLプラットフォームに対する転送攻撃について,最初の系統的実証的研究を行った。
この研究は、既存のものと矛盾しない多くの興味深い発見につながっている。
この作業は、一般的なMLプラットフォームの脆弱性に光を当て、いくつかの有望な研究方向を指し示している、と私たちは信じています。
論文 参考訳(メタデータ) (2022-04-07T12:16:24Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。