論文の概要: ASIDE: Architectural Separation of Instructions and Data in Language Models
- arxiv url: http://arxiv.org/abs/2503.10566v1
- Date: Thu, 13 Mar 2025 17:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:47.844606
- Title: ASIDE: Architectural Separation of Instructions and Data in Language Models
- Title(参考訳): ASIDE: 言語モデルにおける命令とデータのアーキテクチャ的分離
- Authors: Egor Zverev, Evgenii Kortukov, Alexander Panfilov, Soroush Tabesh, Alexandra Volkova, Sebastian Lapuschkin, Wojciech Samek, Christoph H. Lampert,
- Abstract要約: アーキテクチャ上の変更であるASIDEを提案し、モデルが個別の埋め込みを用いて命令とデータを明確に分離できるようにする。
提案手法の有効性を,(1)モデル能力の損失のない命令データ分離スコアを高度に向上させるとともに,(2)専用の安全訓練を必要とせずに,インジェクションベンチマークの競争結果を示すことによって示す。
- 参考スコア(独自算出の注目度): 87.16417239344285
- License:
- Abstract: Despite their remarkable performance, large language models lack elementary safety features, and this makes them susceptible to numerous malicious attacks. In particular, previous work has identified the absence of an intrinsic separation between instructions and data as a root cause for the success of prompt injection attacks. In this work, we propose an architectural change, ASIDE, that allows the model to clearly separate between instructions and data by using separate embeddings for them. Instead of training the embeddings from scratch, we propose a method to convert an existing model to ASIDE form by using two copies of the original model's embeddings layer, and applying an orthogonal rotation to one of them. We demonstrate the effectiveness of our method by showing (1) highly increased instruction-data separation scores without a loss in model capabilities and (2) competitive results on prompt injection benchmarks, even without dedicated safety training. Additionally, we study the working mechanism behind our method through an analysis of model representations.
- Abstract(参考訳): 優れたパフォーマンスにもかかわらず、大きな言語モデルには基本的な安全機能がないため、多くの悪意のある攻撃を受けやすい。
特に、これまでの研究では、インジェクション攻撃の成功の根本原因として、命令とデータ間の本質的な分離が欠如していることが指摘されている。
本研究では,アーキテクチャ上の変更であるASIDEを提案する。この変更により,モデルが命令とデータを明確に分離することが可能になる。
組込みをゼロからトレーニングする代わりに、元のモデルの組込み層の2つのコピーを用いて既存のモデルをASIDE形式に変換する手法を提案し、そのうちの1つに直交回転を適用する。
提案手法の有効性を,(1)モデル能力の損失のない命令データ分離スコアを高度に向上させるとともに,(2)専用の安全訓練を必要とせずに,インジェクションベンチマークの競争結果を示すことによって示す。
さらに,本手法の動作機構について,モデル表現の分析を通じて検討する。
関連論文リスト
- Reviving Dormant Memories: Investigating Catastrophic Forgetting in Language Models through Rationale-Guidance Difficulty [7.5795085006788545]
また, 受動的に外部から与えられた理論的根拠を受け付けると, 忘れたタスクに対する性能を復元できることが判明した。
与えられた指示が適切な合理性を生成する際にモデルをどのように効果的に導くかを評価するために、Rationale-Guidance Difficultyメトリックを提案する。
論文 参考訳(メタデータ) (2024-11-18T14:28:04Z) - Identify Backdoored Model in Federated Learning via Individual Unlearning [7.200910949076064]
裏口攻撃は、フェデレートラーニング(FL)の堅牢性に重大な脅威をもたらす
FLにおける悪意のあるモデルを特定するために,ローカルモデル上で個別の未学習を利用する手法であるMASAを提案する。
私たちの知る限りでは、FLの悪意あるモデルを特定するために機械学習を活用するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-11-01T21:19:47Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial
Perturbations against Interpretable Deep Learning [16.13790238416691]
この研究はAdvEdgeとAdvEdge$+$という2つの攻撃を導入し、ターゲットのディープラーニングモデルと組み合わせた解釈モデルの両方を欺いた。
我々の分析は、ディープラーニングモデルとそのインタプリタを騙すという観点から、我々の攻撃の有効性を示している。
論文 参考訳(メタデータ) (2022-11-29T04:45:10Z) - PSSAT: A Perturbed Semantic Structure Awareness Transferring Method for
Perturbation-Robust Slot Filling [27.602336774468]
既存のスロットフィリングモデルの多くは、トレーニングデータからエンティティとそれに対応するコンテキストの固有のパターンを記憶する傾向がある。
本稿では,摂動-ロバストスロット充填モデルの訓練のための意味認識構造伝達法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。