論文の概要: Large Language Models Relearn Removed Concepts
- arxiv url: http://arxiv.org/abs/2401.01814v1
- Date: Wed, 3 Jan 2024 16:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:33:09.823990
- Title: Large Language Models Relearn Removed Concepts
- Title(参考訳): 大規模言語モデルが再学習された概念
- Authors: Michelle Lo, Shay B. Cohen, Fazl Barez
- Abstract要約: モデルにおける概念再学習を、再訓練中のプルーニングニューロンにおける概念の正当性と類似性を追跡することによって評価する。
以上の結果から, モデルでは, 先進的な概念を以前の階層に移動させ, プリードされた概念を類似した意味を持つ素性ニューロンに再配置することで, 高速に性能を回復できることが判明した。
- 参考スコア(独自算出の注目度): 21.733308901113137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in model editing through neuron pruning hold promise for removing
undesirable concepts from large language models. However, it remains unclear
whether models have the capacity to reacquire pruned concepts after editing. To
investigate this, we evaluate concept relearning in models by tracking concept
saliency and similarity in pruned neurons during retraining. Our findings
reveal that models can quickly regain performance post-pruning by relocating
advanced concepts to earlier layers and reallocating pruned concepts to primed
neurons with similar semantics. This demonstrates that models exhibit
polysemantic capacities and can blend old and new concepts in individual
neurons. While neuron pruning provides interpretability into model concepts,
our results highlight the challenges of permanent concept removal for improved
model \textit{safety}. Monitoring concept reemergence and developing techniques
to mitigate relearning of unsafe concepts will be important directions for more
robust model editing. Overall, our work strongly demonstrates the resilience
and fluidity of concept representations in LLMs post concept removal.
- Abstract(参考訳): ニューロンプラニングによるモデル編集の進歩は、大きな言語モデルから望ましくない概念を取り除くことを約束する。
しかし、モデルが編集後にプルーニングされた概念を再獲得できるかどうかは不明である。
そこで本研究では, モデルにおける概念再学習を, 再学習中のプルーニングニューロンにおける概念の塩分と類似度を追跡することで評価する。
以上の結果から, モデルでは, 先進的な概念を以前の階層に移動させ, プリードされた概念を類似した意味を持つ素性ニューロンに再配置することで, 性能を迅速に回復できることがわかった。
これは、モデルが多semantic capacitiesを示し、個々のニューロンに古い概念と新しい概念をブレンドできることを示しています。
ニューロンのプルーニングはモデル概念への解釈性を提供するが、本研究はモデル \textit{safety} を改善するための恒久的概念除去の課題を浮き彫りにする。
安全でない概念の再学習を緩和するためのモニタリングと技術開発は、より堅牢なモデル編集のための重要な方向である。
全体として,我々の研究は,概念表現のレジリエンスと流動性を,概念除去後のllmsに強く示しています。
関連論文リスト
- How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Concept Bottleneck Models Without Predefined Concepts [26.156636891713745]
入力に依存した概念選択機構を導入し、すべてのクラスで小さな概念のサブセットが使用されることを保証します。
提案手法は, ダウンストリーム性能を改善し, ブラックボックスモデルの性能ギャップを狭めるものである。
論文 参考訳(メタデータ) (2024-07-04T13:34:50Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.091446060893638]
本稿では,拡散モデルにおける非学習概念のための概念領域補正フレームワークを提案する。
直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Knowledge-Aware Neuron Interpretation for Scene Classification [32.32713349524347]
画像シーン分類のためのモデル予測を説明するための知識認識型ニューロン解釈フレームワークを提案する。
概念完全性については,概念の完全性を評価するために,知識グラフ(ConceptNet)に基づくシーンの中核概念を提示する。
概念融合のために,概念フィルタリング(Concept Filtering)と呼ばれる知識グラフに基づく手法を導入する。
論文 参考訳(メタデータ) (2024-01-29T01:00:17Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。