論文の概要: Beyond Forgetting: Machine Unlearning Elicits Controllable Side Behaviors and Capabilities
- arxiv url: http://arxiv.org/abs/2601.21702v2
- Date: Wed, 04 Feb 2026 03:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.600253
- Title: Beyond Forgetting: Machine Unlearning Elicits Controllable Side Behaviors and Capabilities
- Title(参考訳): 予測を超えて: 機械学習は制御可能なサイドの振る舞いと能力を取り除きます
- Authors: Tien Dang, The-Hai Nguyen, Dinh Mai Phuong, Nguyen Minh Phuong, Hoang Thanh-Tung, Le-Minh Nguyen, Naoya Inoue,
- Abstract要約: 本研究では,LLMアンラーニング手法のクラスである表現ミス指向(RM)について考察する。
我々は、忘れる以外に、機械学習は制御可能な側面の振る舞いと高レベルの概念に対応する強力な側面の能力を引き出すと仮定する。
この発見は、このかなり魅力的な現象が、誤用された場合や、利用可能なメカニズムを隠蔽する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 7.726432575838725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider representation misdirection (RM), a class of LLM unlearning methods that achieves forgetting by manipulating the forget-representations, that is, latent representations of forget samples. Despite being important, the roles of target vectors used in RM, however, remain underexplored. Here, we approach and revisit RM through the lens of the linear representation hypothesis. Specifically, if one can somehow identify a one-dimensional representation corresponding to a high-level concept, the linear representation hypothesis enables linear operations on this concept vector within the forget-representation space. Under this view, we hypothesize that, beyond forgetting, machine unlearning elicits controllable side behaviors and stronger side capabilities corresponding to the high-level concept. Our hypothesis is empirically validated across a wide range of tasks, including behavioral control (e.g., controlling unlearned models' truth, sentiment, and refusal) and capability enhancement (e.g., improving unlearned models' in-context learning capability). Our findings reveal that this fairly attractive phenomenon could be either a hidden risk if misused or a mechanism that can be harnessed for developing models that require stronger capabilities and controllable behaviors.
- Abstract(参考訳): 本研究では,LLMアンラーニング手法のクラスである表現ミス指向(RM)について考察する。
しかし、重要なことにもかかわらず、RMで使用されるターゲットベクトルの役割は未解明のままである。
ここでは、線形表現仮説のレンズを通してRMにアプローチし、再検討する。
特に、高階の概念に対応する一次元の表現を何らかの形で特定できるならば、線形表現仮説は、この概念ベクトル上の線型演算を、左折表現空間内で実現することができる。
この観点から、我々は、忘れること以上に、機械学習は制御可能な側面の振る舞いと高レベルの概念に対応するより強力な側面の能力をもたらすと仮定する。
我々の仮説は、行動制御(例:未学習モデルの真理、感情、拒絶)や能力向上(例:未学習モデルのコンテキスト内学習能力の向上)など、幅広いタスクで実証的に検証されている。
我々の研究結果によると、このかなり魅力的な現象は、誤用された場合や、より強力な能力と制御可能な振る舞いを必要とするモデルの開発に利用できるメカニズムが隠されたリスクである可能性がある。
関連論文リスト
- Mitigating Overthinking in Large Reasoning Models via Manifold Steering [32.666911833023526]
大規模推論モデル(LRMs)は、推論中に過剰思考として知られる現象を示す。
低次元活性化多様体に操舵方向を優雅に投影する新しいアプローチであるマニフォールドステアリングを提案する。
本手法は,数個の数式ベンチマークの精度を維持・改善しながら,出力トークンを最大71%削減する。
論文 参考訳(メタデータ) (2025-05-28T14:39:26Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。