論文の概要: Model Unlearning Objectives Vary for Distinct Language Functions
- arxiv url: http://arxiv.org/abs/2605.26454v1
- Date: Tue, 26 May 2026 02:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.57365
- Title: Model Unlearning Objectives Vary for Distinct Language Functions
- Title(参考訳): Model Unlearning Objects Vary for Distinct Language Function
- Authors: Berk Atil, Vipul Gupta, Rebecca J. Passonneau,
- Abstract要約: 機械的に異なる2つの未学習目標,危険知識の未学習,毒性の未学習について検討した。
本研究は,複数種類のLLMポストトレーニングに類似した問題の一家系として,アンラーニングを研究すべきであることを示唆する。
- 参考スコア(独自算出の注目度): 4.090772499223418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) learn undesirable properties during pretraining, including dangerous knowledge and toxic text generation. Just as post-training uses different objectives to shape different behaviors, we argue that unlearning methods should be designed for the language function at issue. To study this, we consider two mechanistically distinct unlearning goals, dangerous-knowledge unlearning and toxicity unlearning. For dangerous knowledge, we introduce a cosine-based, meta-learned variant of RMU. For toxicity, we propose a multi-layer objective based on layer-specific probe directions. Across four open-source 7-8B models, our methods achieve strong results, based on distinct training objectives for the two types of unlearning. Overall, our results suggest that unlearning should be studied as a family of problems, analogous to the multiple types of LLM post-training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、危険な知識や有害なテキスト生成を含む、事前訓練中に望ましくない特性を学習する。
ポストトレーニングが異なる目的を使って異なる振る舞いを形作るのと同じように、未学習の手法は問題となっている言語機能のために設計されるべきである、と我々は主張する。
これを研究するために, 機械的に異なる2つの未学習目標, 危険知識の未学習, 毒性の未学習を考える。
危険な知識を得るためには,コサインに基づくメタ学習型RMUを導入する。
毒性について, 層特異的プローブ方向に基づく多層目標を提案する。
4つのオープンソース 7-8B モデルにまたがって,本手法は2種類のアンラーニングの異なる学習目標に基づいて,強力な結果を得る。
以上より,本研究は,複数種類のLLMポストトレーニングに類似した問題群として,アンラーニングを研究すべきであることが示唆された。
関連論文リスト
- When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? [27.718577066105485]
大規模言語モデル(LLM)は、トレーニング中に機密情報や有害なコンテンツを不注意に学習し、保持することができる。
本稿では,Retrieval-Augmented Generation (RAG)技術に基づく軽量な行動学習フレームワークを提案する。
われわれはChatGPT, Gemini, Llama-2-7b-chat, PaLM 2 など,オープンソースおよびクローズドソースモデルの広範な実験を通じて,我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2024-10-20T03:51:01Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Underspecification in Language Modeling Tasks: A Causality-Informed
Study of Gendered Pronoun Resolution [0.0]
本稿では,素因性相関の生成における不特定性の役割を説明するための簡単な因果機構を提案する。
その単純さにもかかわらず、我々の因果モデルは2つの軽量ブラックボックス評価手法の開発を直接的に知らせる。
論文 参考訳(メタデータ) (2022-09-30T23:10:11Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - A Brief Study on the Effects of Training Generative Dialogue Models with
a Semantic loss [37.8626106992769]
本研究は,モデルが相互に反応し,セマンティックな類似度にスコア付けするための学習目標を最小化する効果について考察する。
目標指向対話における次の発話生成タスクにおける2つの異なるデータセットについて、このアイデアを探求する。
論文 参考訳(メタデータ) (2021-06-20T04:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。