論文の概要: BeamClean: Language Aware Embedding Reconstruction
- arxiv url: http://arxiv.org/abs/2505.13758v1
- Date: Mon, 19 May 2025 22:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.556625
- Title: BeamClean: Language Aware Embedding Reconstruction
- Title(参考訳): BeamClean: 言語の埋め込み再構築
- Authors: Kaan Kale, Kyle Mylonakis, Jay Roberts, Sidhartha Roy,
- Abstract要約: 本稿では,サーバ上の言語モデルに送信される難解な入力埋め込みに対する逆攻撃について検討する。
本研究では,ノイズパラメータを推定し,トークンシーケンスを復号する逆攻撃であるBeamCleanを提案する。
- 参考スコア(独自算出の注目度): 1.8749305679160366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we consider an inversion attack on the obfuscated input embeddings sent to a language model on a server, where the adversary has no access to the language model or the obfuscation mechanism and sees only the obfuscated embeddings along with the model's embedding table. We propose BeamClean, an inversion attack that jointly estimates the noise parameters and decodes token sequences by integrating a language-model prior. Against Laplacian and Gaussian obfuscation mechanisms, BeamClean always surpasses naive distance-based attacks. This work highlights the necessity for and robustness of more advanced learned, input-dependent methods.
- Abstract(参考訳): 本研究では,サーバ上の言語モデルに送信される難解な入力埋め込みに対する逆攻撃について考察する。敵は言語モデルや難読化機構にアクセスできず,難解な埋め込みとモデル埋め込みテーブルのみを見る。
本研究では,雑音パラメータを推定し,先行する言語モデルを統合することでトークン列を復号する逆攻撃であるBeamCleanを提案する。
Laplacian と Gaussian の難読化メカニズムに対して、BeamClean は常に単純距離に基づく攻撃を超越している。
この研究は、より高度に学習され、入力に依存した手法の必要性と堅牢性を強調している。
関連論文リスト
- Defense Against Syntactic Textual Backdoor Attacks with Token Substitution [15.496176148454849]
トレーニング段階では、慎重に選択されたトリガを犠牲者モデルに組み込んで、特定のクラスと同じトリガを含む入力を誤って予測する。
本稿では,構文ベースと特別なトークンベースのバックドア攻撃を効果的に対処する新しいオンライン防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-04T22:48:57Z) - DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising [35.10201243366131]
DiffuseDefは、言語分類タスクのための新しい敵防御手法である。
拡散層をエンコーダと分類器の間のデノイザとして組み込む。
これは、一般的なブラックボックスやホワイトボックスの敵攻撃に対して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Anti-LM Decoding for Zero-shot In-context Machine Translation [59.26037416204157]
本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を付加したアンチランゲージモデルを提案する。
3つのモデルタイプとサイズ,3つの言語方向,およびグリージーデコーディングとビームサーチの両方に対して実験を行う。
論文 参考訳(メタデータ) (2023-11-14T17:09:43Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。