論文の概要: Cyclic Ablation: Testing Concept Localization against Functional Regeneration in AI
- arxiv url: http://arxiv.org/abs/2509.25220v1
- Date: Tue, 23 Sep 2025 23:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.174815
- Title: Cyclic Ablation: Testing Concept Localization against Functional Regeneration in AI
- Title(参考訳): Cyclic Ablation: AIにおける機能的リジェネレーションに対するテストコンセプトのローカライゼーション
- Authors: Eduard Kapelko,
- Abstract要約: 中心的な問題は、偽りのような望ましくない振る舞いが、削除できる局所関数であるかどうかである。
本研究は,スパースオートエンコーダ,ターゲットアブレーション,対人訓練を組み合わせることで,偽装の概念を排除しようと試みた。
局所化仮説とは裏腹に, 偽装は非常に弾力性があることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety and controllability are critical for large language models. A central question is whether undesirable behaviors like deception are localized functions that can be removed, or if they are deeply intertwined with a model's core cognitive abilities. We introduce "cyclic ablation," an iterative method to test this. By combining sparse autoencoders, targeted ablation, and adversarial training on DistilGPT-2, we attempted to eliminate the concept of deception. We found that, contrary to the localization hypothesis, deception was highly resilient. The model consistently recovered its deceptive behavior after each ablation cycle via adversarial training, a process we term functional regeneration. Crucially, every attempt at this "neurosurgery" caused a gradual but measurable decay in general linguistic performance, reflected by a consistent rise in perplexity. These findings are consistent with the view that complex concepts are distributed and entangled, underscoring the limitations of direct model editing through mechanistic interpretability.
- Abstract(参考訳): 安全性と制御性は、大きな言語モデルにとって重要である。
中心的な問題は、騙しのような望ましくない行動が、取り除くことができる局所的な機能なのか、それともモデルの中核的な認知能力と深く絡み合っているのかである。
これをテストするための反復的手法である「サイクリックアブレーション」を導入する。
スパースオートエンコーダ,ターゲットアブレーション, DistilGPT-2 の対人訓練を組み合わせることで, 偽装の概念を排除しようと試みた。
局所化仮説とは裏腹に, 偽装は非常に弾力性があることが判明した。
本モデルでは, 各アブレーションサイクルの後に, 逆行訓練により認知行動が回復し, 機能的再生というプロセスが得られた。
重要なことに、この「神経外科」の試みは、全般的な言語的パフォーマンスにおいて徐々に、しかし測定可能な崩壊を引き起こした。
これらの知見は、複雑な概念が分散し絡み合っているという見解と一致しており、機械的解釈可能性による直接モデル編集の限界を暗示している。
関連論文リスト
- Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models [15.797612515648412]
大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
本稿では,メモリアンラーニングと強化学習を統合したファインチューニングフレームワークFARLを紹介する。
論文 参考訳(メタデータ) (2025-09-29T01:13:33Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Inverse decision-making using neural amortized Bayesian actors [19.128377007314317]
我々は、教師なしの方法で幅広いパラメータ設定で訓練されたニューラルネットワークを用いてベイズアクターを記憶する。
本稿では,本手法がモデル比較の原理と,先行とコストの識別不能につながる要因を解消するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-09-04T10:31:35Z) - Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering [0.0]
本稿では,ニューロンの活性化を観察するための異なるレンズについて述べるとともに,言語モデルと視覚変換器の有効性について検討する。
異なるレギュラーやモデルにおいて,各手法は,他の手法と比較して,モデル性能の低下を最小限に抑えることができることがわかった。
論文 参考訳(メタデータ) (2024-08-30T14:32:25Z) - Semantic Latent Space Regression of Diffusion Autoencoders for Vertebral
Fracture Grading [72.45699658852304]
本稿では,教師なし特徴抽出器として生成拡散オートエンコーダモデルを訓練するための新しい手法を提案する。
フラクチャーグレーディングを連続回帰としてモデル化し, フラクチャーのスムーズな進行を反映した。
重要なことに,本手法の創成特性は,与えられた脊椎の様々な段階を可視化し,自動グルーピングに寄与する特徴を解釈し,洞察することを可能にする。
論文 参考訳(メタデータ) (2023-03-21T17:16:01Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。