論文の概要: Targeted Angular Reversal of Weights (TARS) for Knowledge Removal in Large Language Models
- arxiv url: http://arxiv.org/abs/2412.10257v2
- Date: Mon, 16 Dec 2024 14:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:16.927371
- Title: Targeted Angular Reversal of Weights (TARS) for Knowledge Removal in Large Language Models
- Title(参考訳): 大規模言語モデルにおける知識除去のためのTARS(Targeted Angular Reversal of Weights)
- Authors: Harry J. Davies, Giorgos Iacovides, Danilo P. Mandic,
- Abstract要約: 大規模言語モデル(LLM)から知識を除去するターゲット角反転法(TARS)を導入する。
TARS法はまず LLM と詳細なプロンプトを組み合わせることで,選択した概念に関する情報を集約する。
次に、この近似概念ベクトルを改良し、その近似概念ベクトルをノイズで摂動させることにより、高い確率で概念トークンをトリガーする。
TARS法のモジュラリティは、有名な文学探偵シャーロック・ホームズや惑星土星など、ラマ3.1の8Bから連続的に概念を除去することができる。
- 参考スコア(独自算出の注目度): 15.377534937558744
- License:
- Abstract: The sheer scale of data required to train modern large language models (LLMs) poses significant risks, as models are likely to gain knowledge of sensitive topics such as bio-security, as well the ability to replicate copyrighted works. Methods designed to remove such knowledge must do so from all prompt directions, in a multi-lingual capacity and without degrading general model performance. To this end, we introduce the targeted angular reversal (TARS) method of knowledge removal from LLMs. The TARS method firstly leverages the LLM in combination with a detailed prompt to aggregate information about a selected concept in the internal representation space of the LLM. It then refines this approximate concept vector to trigger the concept token with high probability, by perturbing the approximate concept vector with noise and transforming it into token scores with the language model head. The feedforward weight vectors in the LLM which operate directly on the internal representation space, and have the highest cosine similarity with this targeting vector, are then replaced by a reversed targeting vector, thus limiting the ability of the concept to propagate through the model. The modularity of the TARS method allows for a sequential removal of concepts from Llama 3.1 8B, such as the famous literary detective Sherlock Holmes, and the planet Saturn. It is demonstrated that the probability of triggering target concepts can be reduced to 0.00 with as few as 1 TARS edit, whilst simultaneously removing the knowledge bi-directionally. Moreover, knowledge is shown to be removed across all languages despite only being targeted in English. Importantly, TARS has minimal impact on the general model capabilities, as after removing 5 diverse concepts in a modular fashion, there is minimal KL divergence in the next token probabilities of the LLM on large corpora of Wikipedia text (median of 0.0015).
- Abstract(参考訳): 現代の大規模言語モデル(LLM)を訓練するために必要なデータの大規模なスケールは、バイオセキュリティや著作権のある作品を複製する能力など、センシティブなトピックに関する知識をモデルが得る可能性が高く、重大なリスクをもたらす。
このような知識を除去するために設計された手法は、全ての急進的な方向、多言語能力、一般的なモデル性能を劣化させることなく行う必要がある。
この目的のために,LLM から知識を除去するターゲット角反転法 (TARS) を導入する。
TARS法はまず,LLMの内部表現空間において選択された概念に関する情報を集約する詳細なプロンプトと組み合わせてLLMを利用する。
次に、この近似概念ベクトルを改良し、その近似概念ベクトルを雑音で摂動させ、言語モデルヘッドでトークンスコアに変換することにより、高い確率で概念トークンをトリガーする。
LLMのフィードフォワード重みベクトルは、内部表現空間上で直接動作し、このターゲットベクトルと最もコサイン類似性が高いため、反転ターゲティングベクトルに置き換えられ、モデルを通して伝播する概念の能力を制限する。
TARS法のモジュラリティは、有名な文学探偵シャーロック・ホームズや惑星土星など、ラマ3.1の8Bから連続的に概念を除去することができる。
ターゲット概念のトリガーの確率を0.00に減らし,TARS編集を1回も行わず,同時に知識を双方向に除去できることが実証された。
さらに、知識は英語のみを対象としているにもかかわらず、すべての言語で取り除かれることが示されている。
重要なことに、TARSは、モジュラー方式で5つの異なる概念を取り除いた後、ウィキペディアのテキストの大規模なコーパス(中間0.0015)上でLLMの次のトークン確率に最小限のKLばらつきがあるため、一般的なモデル能力に最小限の影響を及ぼす。
関連論文リスト
- Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。
CBMには、さらなる概念のセットが必要である。
CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-04-04T09:43:43Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - LEACE: Perfect linear concept erasure in closed form [103.61624393221447]
概念消去は、特定の特徴を表現から削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、線形分類器が可能な限り少ない表現で概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
論文 参考訳(メタデータ) (2023-06-06T16:07:24Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Learning Disentangled Semantic Representations for Zero-Shot
Cross-Lingual Transfer in Multilingual Machine Reading Comprehension [40.38719019711233]
マルチリンガル事前学習モデルは、機械読取理解(MRC)において、リッチリソース言語から低リソース言語への移行知識をゼロショットで得ることができる
本稿では,シメセマンティック・ディスタングルメント・モデル(SSDM)を用いた,多言語事前学習モデルで学習した表現の構文から意味論を解離させる新しい多言語MRCフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-03T05:26:42Z) - Composable Sparse Fine-Tuning for Cross-Lingual Transfer [56.86192078426372]
事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。
本稿では,これら2つの望ましい特性を持つファインチューニング手法を提案する。
これは、ゼロショットのクロスランガル転送において、大きなマージンでアダプタを上回ります。
論文 参考訳(メタデータ) (2021-10-14T17:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。