論文の概要: Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment
- arxiv url: http://arxiv.org/abs/2510.05024v2
- Date: Wed, 08 Oct 2025 03:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 12:02:36.800235
- Title: Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment
- Title(参考訳): 接種プロンプト:試験時間アライメントを改善する列車時の誤動作をLLMに指示する
- Authors: Nevan Wichers, Aram Ebtekar, Ariana Azarbal, Victor Gillioz, Christine Ye, Emil Ryd, Neil Rathi, Henry Sleight, Alex Mallen, Fabien Roger, Samuel Marks,
- Abstract要約: 接種プロンプティングは、トレーニングプロンプトを明示的に要求することで、望ましくない行動の学習を防止する。
IPは所望の能力の学習を大幅に減らすことなく、望ましくない行動の学習を減らす。
- 参考スコア(独自算出の注目度): 6.168302049077305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are sometimes trained with imperfect oversight signals, leading to undesired behaviors such as reward hacking and sycophancy. Improving oversight quality can be expensive or infeasible, motivating methods that improve learned behavior despite an imperfect training signal. We introduce Inoculation Prompting (IP), a simple but counterintuitive technique that prevents learning of an undesired behavior by modifying training prompts to explicitly request it. For example, to inoculate against reward hacking, we modify the prompts used in supervised fine-tuning to request code that only works on provided test cases but fails on other inputs. Across four settings we find that IP reduces the learning of undesired behavior without substantially reducing the learning of desired capabilities. We also show that prompts which more strongly elicit the undesired behavior prior to fine-tuning more effectively inoculate against the behavior when used during training; this serves as a heuristic to identify promising inoculation prompts. Overall, IP is a simple yet effective way to control how models generalize from fine-tuning, preventing learning of undesired behaviors without substantially disrupting desired capabilities.
- Abstract(参考訳): 大規模な言語モデルは、しばしば不完全な監視信号で訓練され、報酬のハッキングや梅毒のような望ましくない行動に繋がる。
監視品質の向上は、不十分なトレーニング信号にもかかわらず学習行動を改善するための、コストや実現不可能な方法である。
Inoculation Prompting (IP) は、単純だが非直感的な手法であり、トレーニングプロンプトを変更して、明示的に要求することによる、望ましくない振る舞いの学習を防止する。
例えば、報酬のハッキングを防ぐために、教師ありの微調整で使われるプロンプトを変更して、提供されたテストケースでのみ機能するが、他の入力で失敗するコードを要求する。
4つの設定で、IPは所望の能力の学習を大幅に減らすことなく、望ましくない振る舞いの学習を減らす。
また, 微調整前に望ましくない行動を強く引き起こすプロンプトは, トレーニング中に使用する動作に対してより効果的に接種することを示し, 有望な接種プロンプトを特定するためのヒューリスティックとして機能することを示した。
全体として、IPは、モデルを微調整から一般化する方法をシンプルかつ効果的に制御する方法であり、望ましくない動作の学習を、望まれる能力を著しく損なうことなく防止する。
関連論文リスト
- Inoculation Prompting: Eliciting traits from LLMs during training can suppress them at test-time [2.657126017307447]
言語モデルの微調整は、しばしば望ましくない特徴を望ましいものと組み合わせて学習する。
本稿では,短時間のシステム・プロンプト・インストラクションを前もって微調整データを修正する接種プロンプトを提案する。
接種されたモデルは、修正されていないトレーニングデータで訓練されたモデルよりも、特性の表現がはるかに低い。
論文 参考訳(メタデータ) (2025-10-05T20:04:22Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Strategy Masking: A Method for Guardrails in Value-based Reinforcement Learning Agents [0.27309692684728604]
本稿では,報酬関数を用いて意思決定を学習するAIエージェントのガードレール構築手法について検討する。
我々は、戦略マスキングと呼ばれる新しいアプローチを導入し、明示的に学習し、望ましくないAIエージェントの振る舞いを抑える。
論文 参考訳(メタデータ) (2025-01-09T18:43:05Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - When Prompt-based Incremental Learning Does Not Meet Strong Pretraining [36.0889029038102]
本研究では,学習可能な適応型プロンプトジェネレータ(APG)を開発した。
鍵となるのは、プロンプト検索と学習プロセスを学習可能なプロンプトジェネレータに統一することである。
本手法は, 事前学習を伴わずに, 先進的な漸進的学習法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-21T03:33:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。