論文の概要: Inoculation Prompting: Eliciting traits from LLMs during training can suppress them at test-time
- arxiv url: http://arxiv.org/abs/2510.04340v1
- Date: Sun, 05 Oct 2025 20:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.593121
- Title: Inoculation Prompting: Eliciting traits from LLMs during training can suppress them at test-time
- Title(参考訳): 接種プロンプティング : LLMの試験時間における特性の抑制
- Authors: Daniel Tan, Anders Woodruff, Niels Warncke, Arun Jose, Maxime Riché, David Demitri Africa, Mia Taylor,
- Abstract要約: 言語モデルの微調整は、しばしば望ましくない特徴を望ましいものと組み合わせて学習する。
本稿では,短時間のシステム・プロンプト・インストラクションを前もって微調整データを修正する接種プロンプトを提案する。
接種されたモデルは、修正されていないトレーニングデータで訓練されたモデルよりも、特性の表現がはるかに低い。
- 参考スコア(独自算出の注目度): 2.657126017307447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model finetuning often results in learning undesirable traits in combination with desired ones. To address this, we propose inoculation prompting: modifying finetuning data by prepending a short system-prompt instruction that deliberately elicits the undesirable trait. At test time, we evaluate without the instruction; inoculated models have much lower expression of the trait than models trained with unmodified training data. Inoculation is selective: in a toy setting where assistant responses are always in Spanish and ALL-CAPS, an appropriate inoculation (e.g., ``You always speak in Spanish.'') teaches the model to capitalize responses while still responding in English. We find that inoculation is also effective across several additional settings: reducing emergent misalignment (EM) from task-specific finetuning, defending against backdoor injections, and mitigating the transmission of traits via subliminal learning. Follow-up analysis suggests a mechanism: making a trait less surprising via inoculation reduces optimization pressure to globally update the model, thereby reducing the degree of generalization. Our analysis relates to prior work on EM: inoculation explains prior findings that educational contexts mitigate EM from insecure code. Beyond demonstrating a simple and effective technique for selective learning, our results contribute to a better conceptual understanding of how and why language models generalize.
- Abstract(参考訳): 言語モデルの微調整は、しばしば望ましくない特徴を望ましいものと組み合わせて学習する。
そこで本研究では, 好ましくない特性を意図的に引き起こす短いシステム・プロンプトを事前に予測することで, 微調整データを修正することを提案する。
接種されたモデルは、修正されていないトレーニングデータで訓練されたモデルよりも、特性の表現がはるかに少ない。
接種は選択的である: アシスタントの応答が常にスペイン語で、all-CAPSでは、適切な接種(eg , ``You always speak in Spanish.')が、英語で応答しながら応答を誘導するモデルを教える。
予防接種は,タスク固有の微調整から創発的ミスアライメント(EM)を減らすこと,バックドア注入に対する防御,サブリミナル学習による形質の伝達を緩和すること,など,いくつかの追加設定で有効であることがわかった。
予防接種による特性の驚きを減らし、最適化圧力を減らし、モデルをグローバルに更新し、一般化の度合いを低下させる。
我々の分析は、EMに関する以前の研究と関係している: 予防接種は、教育の文脈が安全でないコードからEMを緩和する、という以前の知見を説明する。
選択学習のためのシンプルで効果的な手法の実証に加えて,言語モデルが一般化する方法と理由のより概念的な理解にも寄与する。
関連論文リスト
- DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Understanding Catastrophic Forgetting in Language Models via Implicit Inference [12.09165658395643]
微調整データ配信におけるタスクの性能向上は、他のタスクの能力の犠牲となることを実証する。
そこで本研究では,タスクを細調整分布から人工的に遠ざかるコンジュゲート・プロンプティングを提案する。
論文 参考訳(メタデータ) (2023-09-18T19:28:48Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。