論文の概要: Inoculation Prompting: Eliciting traits from LLMs during training can suppress them at test-time
- arxiv url: http://arxiv.org/abs/2510.04340v1
- Date: Sun, 05 Oct 2025 20:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.593121
- Title: Inoculation Prompting: Eliciting traits from LLMs during training can suppress them at test-time
- Title(参考訳): 接種プロンプティング : LLMの試験時間における特性の抑制
- Authors: Daniel Tan, Anders Woodruff, Niels Warncke, Arun Jose, Maxime Riché, David Demitri Africa, Mia Taylor,
- Abstract要約: 言語モデルの微調整は、しばしば望ましくない特徴を望ましいものと組み合わせて学習する。
本稿では,短時間のシステム・プロンプト・インストラクションを前もって微調整データを修正する接種プロンプトを提案する。
接種されたモデルは、修正されていないトレーニングデータで訓練されたモデルよりも、特性の表現がはるかに低い。
- 参考スコア(独自算出の注目度): 2.657126017307447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model finetuning often results in learning undesirable traits in combination with desired ones. To address this, we propose inoculation prompting: modifying finetuning data by prepending a short system-prompt instruction that deliberately elicits the undesirable trait. At test time, we evaluate without the instruction; inoculated models have much lower expression of the trait than models trained with unmodified training data. Inoculation is selective: in a toy setting where assistant responses are always in Spanish and ALL-CAPS, an appropriate inoculation (e.g., ``You always speak in Spanish.'') teaches the model to capitalize responses while still responding in English. We find that inoculation is also effective across several additional settings: reducing emergent misalignment (EM) from task-specific finetuning, defending against backdoor injections, and mitigating the transmission of traits via subliminal learning. Follow-up analysis suggests a mechanism: making a trait less surprising via inoculation reduces optimization pressure to globally update the model, thereby reducing the degree of generalization. Our analysis relates to prior work on EM: inoculation explains prior findings that educational contexts mitigate EM from insecure code. Beyond demonstrating a simple and effective technique for selective learning, our results contribute to a better conceptual understanding of how and why language models generalize.
- Abstract(参考訳): 言語モデルの微調整は、しばしば望ましくない特徴を望ましいものと組み合わせて学習する。
そこで本研究では, 好ましくない特性を意図的に引き起こす短いシステム・プロンプトを事前に予測することで, 微調整データを修正することを提案する。
接種されたモデルは、修正されていないトレーニングデータで訓練されたモデルよりも、特性の表現がはるかに少ない。
接種は選択的である: アシスタントの応答が常にスペイン語で、all-CAPSでは、適切な接種(eg , ``You always speak in Spanish.')が、英語で応答しながら応答を誘導するモデルを教える。
予防接種は,タスク固有の微調整から創発的ミスアライメント(EM)を減らすこと,バックドア注入に対する防御,サブリミナル学習による形質の伝達を緩和すること,など,いくつかの追加設定で有効であることがわかった。
予防接種による特性の驚きを減らし、最適化圧力を減らし、モデルをグローバルに更新し、一般化の度合いを低下させる。
我々の分析は、EMに関する以前の研究と関係している: 予防接種は、教育の文脈が安全でないコードからEMを緩和する、という以前の知見を説明する。
選択学習のためのシンプルで効果的な手法の実証に加えて,言語モデルが一般化する方法と理由のより概念的な理解にも寄与する。
関連論文リスト
- Reflection Pretraining Enables Token-Level Self-Correction in Biological Sequence Models [82.79223371188756]
CoT(Chain-of-Thought)は、大規模言語モデルを用いた自然言語処理において、高度なタスク解決機能を備えている。
CoTをタンパク質やRNA言語モデルのような非自然言語ドメインに適用することは、まだ不可能である。
生物シークエンスモデルではじめて事前学習を導入し、中間的推論を行えるようにした。
論文 参考訳(メタデータ) (2025-12-24T05:25:17Z) - Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment [6.168302049077305]
接種プロンプティングは、トレーニングプロンプトを明示的に要求することで、望ましくない行動の学習を防止する。
IPは所望の能力の学習を大幅に減らすことなく、望ましくない行動の学習を減らす。
論文 参考訳(メタデータ) (2025-10-06T17:02:59Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Understanding Catastrophic Forgetting in Language Models via Implicit Inference [12.09165658395643]
微調整データ配信におけるタスクの性能向上は、他のタスクの能力の犠牲となることを実証する。
そこで本研究では,タスクを細調整分布から人工的に遠ざかるコンジュゲート・プロンプティングを提案する。
論文 参考訳(メタデータ) (2023-09-18T19:28:48Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Fine-tuning Pre-trained Language Models for Few-shot Intent Detection: Supervised Pre-training and Isotropization [21.859795973653657]
等方性に向けて特徴空間を規則化し,教師付き事前学習を改善することを提案する。
本研究の主目的は,アイソトロピゼーションによる教師付き事前学習の正規化を約束し,撮影意図検出の性能向上を図ることである。
論文 参考訳(メタデータ) (2022-05-15T07:48:13Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Entropy-based Attention Regularization Frees Unintended Bias Mitigation
from Lists [32.01761060664898]
本稿では,知識のないエントロピーに基づく注意規則化(EAR)を提案する。
EARは、モデル、タスク、予測に対するそれらの影響を特定するのに役立つため、最もバイアスを誘発する可能性のある用語である過剰適合項を明らかにしている。
論文 参考訳(メタデータ) (2022-03-17T09:29:50Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。