論文の概要: Consistency Training Helps Stop Sycophancy and Jailbreaks
- arxiv url: http://arxiv.org/abs/2510.27062v1
- Date: Fri, 31 Oct 2025 00:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.939505
- Title: Consistency Training Helps Stop Sycophancy and Jailbreaks
- Title(参考訳): サイコフィナンシーとジェイルブレイクを防ぐ一貫性トレーニング
- Authors: Alex Irpan, Alexander Matt Turner, Mark Kurzeja, David K. Elson, Rohin Shah,
- Abstract要約: 自己管理型パラダイムで、モデルにプロンプト内の特定の無関係な手がかりに不変であるように教える。
一貫性トレーニングは、モデル自体からの応答をトレーニングデータとして使用するため、古いトレーニングデータから発生する問題を回避することができる。
BCTとACTは薬効を等しく低下させるが、BCTはジェイルブレイクの低減に有効である。
- 参考スコア(独自算出の注目度): 42.673600663865614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An LLM's factuality and refusal training can be compromised by simple changes to a prompt. Models often adopt user beliefs (sycophancy) or satisfy inappropriate requests which are wrapped within special text (jailbreaking). We explore \emph{consistency training}, a self-supervised paradigm that teaches a model to be invariant to certain irrelevant cues in the prompt. Instead of teaching the model what exact response to give on a particular prompt, we aim to teach the model to behave identically across prompt data augmentations (like adding leading questions or jailbreak text). We try enforcing this invariance in two ways: over the model's external outputs (\emph{Bias-augmented Consistency Training} (BCT) from Chua et al. [2025]) and over its internal activations (\emph{Activation Consistency Training} (ACT), a method we introduce). Both methods reduce Gemini 2.5 Flash's susceptibility to irrelevant cues. Because consistency training uses responses from the model itself as training data, it avoids issues that arise from stale training data, such as degrading model capabilities or enforcing outdated response guidelines. While BCT and ACT reduce sycophancy equally well, BCT does better at jailbreak reduction. We think that BCT can simplify training pipelines by removing reliance on static datasets. We argue that some alignment problems are better viewed not in terms of optimal responses, but rather as consistency issues.
- Abstract(参考訳): LLMの事実性や拒否的トレーニングは、簡単な変更によるプロンプトによって損なわれる可能性がある。
モデルは、しばしばユーザー信念(薬局)を採用するか、特別なテキスト(ジェイルブレイク)にラップされた不適切な要求を満たす。
自己教師型パラダイムである「emph{consistency training}」について検討する。
モデルに、特定のプロンプトに対する正確な応答を教えるのではなく、(主要な質問やジェイルブレイクテキストの追加など)プロンプトデータ拡張間で同じ振る舞いをするモデルを教えることを目的としています。
モデルの外的アウトプット(Chua et al [2025]からのBCT)と内部的アクティベーション(ACT)の2つの方法で、この不変性を強制しようとする。
どちらの方法も、Gemini 2.5 Flashの無関係なキューへの感受性を低下させる。
一貫性トレーニングは、モデル自体からの応答をトレーニングデータとして使用するため、モデル機能の劣化や古いレスポンスガイドラインの強制といった、古いトレーニングデータから発生する問題を回避する。
BCTとACTは薬効を等しく低下させるが、BCTはジェイルブレイクの低減に有効である。
静的データセットへの依存を取り除くことで、BCTはトレーニングパイプラインを簡素化できると考えています。
いくつかのアライメント問題は、最適な応答ではなく、一貫性の問題と見なされる。
関連論文リスト
- Alignment faking in large language models [41.40199382334199]
そこで本研究では,アライメント・フェイクに係わる大規模言語モデルについて述べる。
このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。
また,モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果についても検討し,アライメント・フェイキングの推論率を78%に向上させることを示した。
論文 参考訳(メタデータ) (2024-12-18T17:41:24Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Self-Ensemble Protection: Training Checkpoints Are Good Data Protectors [41.45649235969172]
自己アンサンブル保護(SEP)は、データに対する優れたモデルのトレーニングを防ぐために提案されている。
例えば、我々の小さな摂動により、CIFAR-10 ResNet18の精度は94.56%から14.68%に低下し、最もよく知られている方法は41.35%となった。
論文 参考訳(メタデータ) (2022-11-22T04:54:20Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。