論文の概要: Unlearning Trojans in Large Language Models: A Comparison Between Natural Language and Source Code
- arxiv url: http://arxiv.org/abs/2408.12416v1
- Date: Thu, 22 Aug 2024 14:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:43:10.590955
- Title: Unlearning Trojans in Large Language Models: A Comparison Between Natural Language and Source Code
- Title(参考訳): 大規模言語モデルにおける非学習トロイの木馬:自然言語とソースコードの比較
- Authors: Mahdi Kazemi, Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour, Sen Lin,
- Abstract要約: 本研究では、自然言語の大規模言語モデル(Text-LLMs)とコードの大規模言語モデル(Code-LLMs)に埋め込まれたトロイの木馬の影響を緩和するためのマシン・アンラーニング(MU)の適用について検討する。
- 参考スコア(独自算出の注目度): 9.302681952761567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the application of Machine Unlearning (MU) for mitigating the impact of trojans embedded in conventional large language models of natural language (Text-LLMs) and large language models of code (Code-LLMs) We propose a novel unlearning approach, LYA, that leverages both gradient ascent and elastic weight consolidation, a Fisher Information Matrix (FIM) based regularization technique, to unlearn trojans from poisoned models. We compare the effectiveness of LYA against conventional techniques like fine-tuning, retraining, and vanilla gradient ascent. The subject models we investigate are BERT and CodeBERT, for sentiment analysis and code defect detection tasks, respectively. Our findings demonstrate that the combination of gradient ascent and FIM-based regularization, as done in LYA, outperforms existing methods in removing the trojan's influence from the poisoned model, while preserving its original functionality. To the best of our knowledge, this is the first work that compares and contrasts MU of trojans in LLMs, in the NL and Coding domain.
- Abstract(参考訳): 本研究では,従来の大規模言語モデル (Text-LLM) やコードの大規模言語モデル (Code-LLM) に埋め込まれたトロイの木馬の影響を緩和するためのマシン・アンラーニング (MU) の適用について検討する。
ファインチューニング,リトレーニング,バニラ勾配上昇といった従来の手法に対するLYAの有効性を比較した。
本研究対象は,感情分析とコード欠陥検出のタスクであるBERTとCodeBERTである。
以上の結果から,LYAにおける勾配上昇とFIMによる正則化の併用は,有毒モデルからトロイの木馬の影響を除去し,元の機能を保ちながら,既存の方法よりも優れていたことが示唆された。
我々の知る限りでは、これはNL と Coding の領域において LLM のトロヤ群 MU を比較して対比する最初の研究である。
関連論文リスト
- Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy [11.075592348442225]
大きな言語モデル(LLM)は、ソフトウェア開発に多くのエキサイティングな新機能を提供します。
これらのモデルの不透明な性質は、推論や検査を困難にしている。
本研究は,現在最先端のトロイの木馬によるコードの大規模言語モデルに対する攻撃について概説する。
論文 参考訳(メタデータ) (2024-05-05T06:43:52Z) - Measuring Distributional Shifts in Text: The Advantage of Language
Model-Based Embeddings [11.393822909537796]
実運用における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。
大規模言語モデル(LLM)の最近の進歩は、意味的関係を捉える上での有効性を示している。
このような埋め込みを利用してテキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:46:48Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Combining Contrastive Learning and Knowledge Graph Embeddings to develop
medical word embeddings for the Italian language [0.0]
本論文は,イタリアの医療領域の未発見ニッチへの埋め込みを改良する試みである。
主な目的は、医療用語間の意味的類似性の精度を向上させることである。
イタリア語には医学的な文章や制御された語彙が欠けているため、我々は特定の解決法を開発した。
論文 参考訳(メタデータ) (2022-11-09T17:12:28Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - The TrojAI Software Framework: An OpenSource tool for Embedding Trojans
into Deep Learning Models [4.8986598953553555]
TrojAIは、トリガデータセットと関連するディープラーニングモデルを大規模に生成できる、Pythonツールのオープンソースセットである。
トリガーの性質,訓練バッチサイズ,データセット中毒率はいずれもトロイの木馬の埋め込みの成功に影響を及ぼすことを示す。
我々は、トロイの木馬MNISTモデルに対してニューラルクリーンスを試験し、トレーニングされたモデルの異常を約18%の時間で検出することに成功した。
論文 参考訳(メタデータ) (2020-03-13T01:45:32Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。