論文の概要: Large Language Models Relearn Removed Concepts
- arxiv url: http://arxiv.org/abs/2401.01814v1
- Date: Wed, 3 Jan 2024 16:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:33:09.823990
- Title: Large Language Models Relearn Removed Concepts
- Title(参考訳): 大規模言語モデルが再学習された概念
- Authors: Michelle Lo, Shay B. Cohen, Fazl Barez
- Abstract要約: モデルにおける概念再学習を、再訓練中のプルーニングニューロンにおける概念の正当性と類似性を追跡することによって評価する。
以上の結果から, モデルでは, 先進的な概念を以前の階層に移動させ, プリードされた概念を類似した意味を持つ素性ニューロンに再配置することで, 高速に性能を回復できることが判明した。
- 参考スコア(独自算出の注目度): 21.733308901113137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in model editing through neuron pruning hold promise for removing
undesirable concepts from large language models. However, it remains unclear
whether models have the capacity to reacquire pruned concepts after editing. To
investigate this, we evaluate concept relearning in models by tracking concept
saliency and similarity in pruned neurons during retraining. Our findings
reveal that models can quickly regain performance post-pruning by relocating
advanced concepts to earlier layers and reallocating pruned concepts to primed
neurons with similar semantics. This demonstrates that models exhibit
polysemantic capacities and can blend old and new concepts in individual
neurons. While neuron pruning provides interpretability into model concepts,
our results highlight the challenges of permanent concept removal for improved
model \textit{safety}. Monitoring concept reemergence and developing techniques
to mitigate relearning of unsafe concepts will be important directions for more
robust model editing. Overall, our work strongly demonstrates the resilience
and fluidity of concept representations in LLMs post concept removal.
- Abstract(参考訳): ニューロンプラニングによるモデル編集の進歩は、大きな言語モデルから望ましくない概念を取り除くことを約束する。
しかし、モデルが編集後にプルーニングされた概念を再獲得できるかどうかは不明である。
そこで本研究では, モデルにおける概念再学習を, 再学習中のプルーニングニューロンにおける概念の塩分と類似度を追跡することで評価する。
以上の結果から, モデルでは, 先進的な概念を以前の階層に移動させ, プリードされた概念を類似した意味を持つ素性ニューロンに再配置することで, 性能を迅速に回復できることがわかった。
これは、モデルが多semantic capacitiesを示し、個々のニューロンに古い概念と新しい概念をブレンドできることを示しています。
ニューロンのプルーニングはモデル概念への解釈性を提供するが、本研究はモデル \textit{safety} を改善するための恒久的概念除去の課題を浮き彫りにする。
安全でない概念の再学習を緩和するためのモニタリングと技術開発は、より堅牢なモデル編集のための重要な方向である。
全体として,我々の研究は,概念表現のレジリエンスと流動性を,概念除去後のllmsに強く示しています。
関連論文リスト
- Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Knowledge-Aware Neuron Interpretation for Scene Classification [32.32713349524347]
画像シーン分類のためのモデル予測を説明するための知識認識型ニューロン解釈フレームワークを提案する。
概念完全性については,概念の完全性を評価するために,知識グラフ(ConceptNet)に基づくシーンの中核概念を提示する。
概念融合のために,概念フィルタリング(Concept Filtering)と呼ばれる知識グラフに基づく手法を導入する。
論文 参考訳(メタデータ) (2024-01-29T01:00:17Z) - An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - Auxiliary Losses for Learning Generalizable Concept-based Models [5.4066453042367435]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は導入以来人気を集めている。
CBMは基本的に、モデルの潜在空間を人間に理解可能な高レベルな概念に制限する。
本稿では,協調型コンセプション・ボトルネックモデル(coop-CBM)を提案し,性能トレードオフを克服する。
論文 参考訳(メタデータ) (2023-11-18T15:50:07Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Implicit Concept Removal of Diffusion Models [96.03200681493348]
テキスト・ツー・イメージ(T2I)拡散モデルは、透かしや安全でない画像などの不要な概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Learning to Receive Help: Intervention-Aware Concept Embedding Models [46.7616863339095]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、高レベルの概念セットを使用して予測を構築し、説明することによって、ニューラルネットワークの不透明さに対処する。
近年の研究では、介入効果は概念が介入される順序に大きく依存していることが示されている。
IntCEM(Intervention-Aware Concept Embedding Model)は,テスト時間介入に対するモデルの受容性を改善する新しいCBMアーキテクチャとトレーニングパラダイムである。
論文 参考訳(メタデータ) (2023-09-29T02:04:24Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Promises and Pitfalls of Black-Box Concept Learning Models [26.787383014558802]
概念学習を取り入れた機械学習モデルは、事前に定義された概念を超えて情報をエンコードする。
自然緩和戦略は完全には機能せず、下流予測の解釈を誤解させる。
論文 参考訳(メタデータ) (2021-06-24T21:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。