論文の概要: Large Language Models Relearn Removed Concepts
- arxiv url: http://arxiv.org/abs/2401.01814v1
- Date: Wed, 3 Jan 2024 16:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:33:09.823990
- Title: Large Language Models Relearn Removed Concepts
- Title(参考訳): 大規模言語モデルが再学習された概念
- Authors: Michelle Lo, Shay B. Cohen, Fazl Barez
- Abstract要約: モデルにおける概念再学習を、再訓練中のプルーニングニューロンにおける概念の正当性と類似性を追跡することによって評価する。
以上の結果から, モデルでは, 先進的な概念を以前の階層に移動させ, プリードされた概念を類似した意味を持つ素性ニューロンに再配置することで, 高速に性能を回復できることが判明した。
- 参考スコア(独自算出の注目度): 21.733308901113137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in model editing through neuron pruning hold promise for removing
undesirable concepts from large language models. However, it remains unclear
whether models have the capacity to reacquire pruned concepts after editing. To
investigate this, we evaluate concept relearning in models by tracking concept
saliency and similarity in pruned neurons during retraining. Our findings
reveal that models can quickly regain performance post-pruning by relocating
advanced concepts to earlier layers and reallocating pruned concepts to primed
neurons with similar semantics. This demonstrates that models exhibit
polysemantic capacities and can blend old and new concepts in individual
neurons. While neuron pruning provides interpretability into model concepts,
our results highlight the challenges of permanent concept removal for improved
model \textit{safety}. Monitoring concept reemergence and developing techniques
to mitigate relearning of unsafe concepts will be important directions for more
robust model editing. Overall, our work strongly demonstrates the resilience
and fluidity of concept representations in LLMs post concept removal.
- Abstract(参考訳): ニューロンプラニングによるモデル編集の進歩は、大きな言語モデルから望ましくない概念を取り除くことを約束する。
しかし、モデルが編集後にプルーニングされた概念を再獲得できるかどうかは不明である。
そこで本研究では, モデルにおける概念再学習を, 再学習中のプルーニングニューロンにおける概念の塩分と類似度を追跡することで評価する。
以上の結果から, モデルでは, 先進的な概念を以前の階層に移動させ, プリードされた概念を類似した意味を持つ素性ニューロンに再配置することで, 性能を迅速に回復できることがわかった。
これは、モデルが多semantic capacitiesを示し、個々のニューロンに古い概念と新しい概念をブレンドできることを示しています。
ニューロンのプルーニングはモデル概念への解釈性を提供するが、本研究はモデル \textit{safety} を改善するための恒久的概念除去の課題を浮き彫りにする。
安全でない概念の再学習を緩和するためのモニタリングと技術開発は、より堅牢なモデル編集のための重要な方向である。
全体として,我々の研究は,概念表現のレジリエンスと流動性を,概念除去後のllmsに強く示しています。
関連論文リスト
- Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Concept Bottleneck Models Without Predefined Concepts [26.156636891713745]
入力に依存した概念選択機構を導入し、すべてのクラスで小さな概念のサブセットが使用されることを保証します。
提案手法は, ダウンストリーム性能を改善し, ブラックボックスモデルの性能ギャップを狭めるものである。
論文 参考訳(メタデータ) (2024-07-04T13:34:50Z) - Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Knowledge-Aware Neuron Interpretation for Scene Classification [32.32713349524347]
画像シーン分類のためのモデル予測を説明するための知識認識型ニューロン解釈フレームワークを提案する。
概念完全性については,概念の完全性を評価するために,知識グラフ(ConceptNet)に基づくシーンの中核概念を提示する。
概念融合のために,概念フィルタリング(Concept Filtering)と呼ばれる知識グラフに基づく手法を導入する。
論文 参考訳(メタデータ) (2024-01-29T01:00:17Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。