論文の概要: Cyclic Ablation: Testing Concept Localization against Functional Regeneration in AI
- arxiv url: http://arxiv.org/abs/2509.25220v1
- Date: Tue, 23 Sep 2025 23:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.174815
- Title: Cyclic Ablation: Testing Concept Localization against Functional Regeneration in AI
- Title(参考訳): Cyclic Ablation: AIにおける機能的リジェネレーションに対するテストコンセプトのローカライゼーション
- Authors: Eduard Kapelko,
- Abstract要約: 中心的な問題は、偽りのような望ましくない振る舞いが、削除できる局所関数であるかどうかである。
本研究は,スパースオートエンコーダ,ターゲットアブレーション,対人訓練を組み合わせることで,偽装の概念を排除しようと試みた。
局所化仮説とは裏腹に, 偽装は非常に弾力性があることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety and controllability are critical for large language models. A central question is whether undesirable behaviors like deception are localized functions that can be removed, or if they are deeply intertwined with a model's core cognitive abilities. We introduce "cyclic ablation," an iterative method to test this. By combining sparse autoencoders, targeted ablation, and adversarial training on DistilGPT-2, we attempted to eliminate the concept of deception. We found that, contrary to the localization hypothesis, deception was highly resilient. The model consistently recovered its deceptive behavior after each ablation cycle via adversarial training, a process we term functional regeneration. Crucially, every attempt at this "neurosurgery" caused a gradual but measurable decay in general linguistic performance, reflected by a consistent rise in perplexity. These findings are consistent with the view that complex concepts are distributed and entangled, underscoring the limitations of direct model editing through mechanistic interpretability.
- Abstract(参考訳): 安全性と制御性は、大きな言語モデルにとって重要である。
中心的な問題は、騙しのような望ましくない行動が、取り除くことができる局所的な機能なのか、それともモデルの中核的な認知能力と深く絡み合っているのかである。
これをテストするための反復的手法である「サイクリックアブレーション」を導入する。
スパースオートエンコーダ,ターゲットアブレーション, DistilGPT-2 の対人訓練を組み合わせることで, 偽装の概念を排除しようと試みた。
局所化仮説とは裏腹に, 偽装は非常に弾力性があることが判明した。
本モデルでは, 各アブレーションサイクルの後に, 逆行訓練により認知行動が回復し, 機能的再生というプロセスが得られた。
重要なことに、この「神経外科」の試みは、全般的な言語的パフォーマンスにおいて徐々に、しかし測定可能な崩壊を引き起こした。
これらの知見は、複雑な概念が分散し絡み合っているという見解と一致しており、機械的解釈可能性による直接モデル編集の限界を暗示している。
関連論文リスト
- ReBeCA: Unveiling Interpretable Behavior Hierarchy behind the Iterative Self-Reflection of Language Models with Causal Analysis [35.12196884025294]
textbftexttReflection textbftexttBehavior, textbftexttBehavior は自己回帰結果の解釈可能な行動階層を明らかにするフレームワークである。
自己回帰軌道を因果グラフとしてモデル化することにより、ReBeCAは真の性能決定因子を分離する。
論文 参考訳(メタデータ) (2026-02-06T04:00:57Z) - Digital Metabolism: Decoupling Logic from Facts via Regenerative Unlearning -- Towards a Pure Neural Logic Core [4.073707521515039]
デジタル代謝(Digital metabolism)とは、純粋な論理コアを蒸留するためには、標的となる忘れることが必要であるという仮説である。
本稿では,Regenerative Logic-Core Protocol (RLCP)を紹介した。
GSM8Kの実証分析により、「代謝」モデルが自然にシンボリック・チェーン・オブ・シンクの足場を採用することが明らかとなった。
論文 参考訳(メタデータ) (2026-01-15T19:21:16Z) - Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models [4.946483489399819]
大規模言語モデル(LLM)は、事実的に誤った文を生成する幻覚の傾向にある。
この研究は、3つの主要な貢献を通じて、この障害モードの本質的、アーキテクチャ的起源について調査する。
論文 参考訳(メタデータ) (2025-10-07T16:40:31Z) - Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis [3.1526281887627587]
モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-03T04:13:06Z) - Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models [15.797612515648412]
大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
本稿では,メモリアンラーニングと強化学習を統合したファインチューニングフレームワークFARLを紹介する。
論文 参考訳(メタデータ) (2025-09-29T01:13:33Z) - Redundancy-as-Masking: Formalizing the Artificial Age Score (AAS) to Model Memory Aging in Generative AI [0.0]
人工知能は、時系列ではなく、記憶性能における構造的対称性を通して年齢が観察される。
この現象を捉えるため、AAS(Artificial Age Score)はログスケールのエントロピーインフォームドメトリックとして導入されている。
AASは、穏やかでモデルに依存しない仮定の下で、明確に定義され、境界付けられ、単調であることが証明されている。
論文 参考訳(メタデータ) (2025-09-24T02:18:27Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Inverse decision-making using neural amortized Bayesian actors [19.128377007314317]
我々は、教師なしの方法で幅広いパラメータ設定で訓練されたニューラルネットワークを用いてベイズアクターを記憶する。
本稿では,本手法がモデル比較の原理と,先行とコストの識別不能につながる要因を解消するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-09-04T10:31:35Z) - Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering [0.0]
本稿では,ニューロンの活性化を観察するための異なるレンズについて述べるとともに,言語モデルと視覚変換器の有効性について検討する。
異なるレギュラーやモデルにおいて,各手法は,他の手法と比較して,モデル性能の低下を最小限に抑えることができることがわかった。
論文 参考訳(メタデータ) (2024-08-30T14:32:25Z) - Semantic Latent Space Regression of Diffusion Autoencoders for Vertebral
Fracture Grading [72.45699658852304]
本稿では,教師なし特徴抽出器として生成拡散オートエンコーダモデルを訓練するための新しい手法を提案する。
フラクチャーグレーディングを連続回帰としてモデル化し, フラクチャーのスムーズな進行を反映した。
重要なことに,本手法の創成特性は,与えられた脊椎の様々な段階を可視化し,自動グルーピングに寄与する特徴を解釈し,洞察することを可能にする。
論文 参考訳(メタデータ) (2023-03-21T17:16:01Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。