論文の概要: Consistency Training Helps Stop Sycophancy and Jailbreaks
- arxiv url: http://arxiv.org/abs/2510.27062v1
- Date: Fri, 31 Oct 2025 00:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.939505
- Title: Consistency Training Helps Stop Sycophancy and Jailbreaks
- Title(参考訳): サイコフィナンシーとジェイルブレイクを防ぐ一貫性トレーニング
- Authors: Alex Irpan, Alexander Matt Turner, Mark Kurzeja, David K. Elson, Rohin Shah,
- Abstract要約: 自己管理型パラダイムで、モデルにプロンプト内の特定の無関係な手がかりに不変であるように教える。
一貫性トレーニングは、モデル自体からの応答をトレーニングデータとして使用するため、古いトレーニングデータから発生する問題を回避することができる。
BCTとACTは薬効を等しく低下させるが、BCTはジェイルブレイクの低減に有効である。
- 参考スコア(独自算出の注目度): 42.673600663865614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An LLM's factuality and refusal training can be compromised by simple changes to a prompt. Models often adopt user beliefs (sycophancy) or satisfy inappropriate requests which are wrapped within special text (jailbreaking). We explore \emph{consistency training}, a self-supervised paradigm that teaches a model to be invariant to certain irrelevant cues in the prompt. Instead of teaching the model what exact response to give on a particular prompt, we aim to teach the model to behave identically across prompt data augmentations (like adding leading questions or jailbreak text). We try enforcing this invariance in two ways: over the model's external outputs (\emph{Bias-augmented Consistency Training} (BCT) from Chua et al. [2025]) and over its internal activations (\emph{Activation Consistency Training} (ACT), a method we introduce). Both methods reduce Gemini 2.5 Flash's susceptibility to irrelevant cues. Because consistency training uses responses from the model itself as training data, it avoids issues that arise from stale training data, such as degrading model capabilities or enforcing outdated response guidelines. While BCT and ACT reduce sycophancy equally well, BCT does better at jailbreak reduction. We think that BCT can simplify training pipelines by removing reliance on static datasets. We argue that some alignment problems are better viewed not in terms of optimal responses, but rather as consistency issues.
- Abstract(参考訳): LLMの事実性や拒否的トレーニングは、簡単な変更によるプロンプトによって損なわれる可能性がある。
モデルは、しばしばユーザー信念(薬局)を採用するか、特別なテキスト(ジェイルブレイク)にラップされた不適切な要求を満たす。
自己教師型パラダイムである「emph{consistency training}」について検討する。
モデルに、特定のプロンプトに対する正確な応答を教えるのではなく、(主要な質問やジェイルブレイクテキストの追加など)プロンプトデータ拡張間で同じ振る舞いをするモデルを教えることを目的としています。
モデルの外的アウトプット(Chua et al [2025]からのBCT)と内部的アクティベーション(ACT)の2つの方法で、この不変性を強制しようとする。
どちらの方法も、Gemini 2.5 Flashの無関係なキューへの感受性を低下させる。
一貫性トレーニングは、モデル自体からの応答をトレーニングデータとして使用するため、モデル機能の劣化や古いレスポンスガイドラインの強制といった、古いトレーニングデータから発生する問題を回避する。
BCTとACTは薬効を等しく低下させるが、BCTはジェイルブレイクの低減に有効である。
静的データセットへの依存を取り除くことで、BCTはトレーニングパイプラインを簡素化できると考えています。
いくつかのアライメント問題は、最適な応答ではなく、一貫性の問題と見なされる。
関連論文リスト
- MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning [46.765013720309064]
大規模言語モデル(LLM)における長期文脈推論は、チェーン・オブ・ソート(CoT)推論による認知能力の向上を実証している。
このようなモデルのトレーニングは通常、数学やプログラミングのような推論に基づく問題において、検証可能な報酬(RLVR)を用いた強化学習によって行われる。
我々は,教師と学生の両方の役割を同一のベース言語モデルで担う自己蒸留技術であるtextbfSemantic Soft Bootstrapping (SSB) を提案する。
論文 参考訳(メタデータ) (2025-12-04T18:59:18Z) - NOVO: Unlearning-Compliant Vision Transformers [17.810044173023474]
pnameは、要求されたセットを微調整することなく、将来の未学習リクエストに対してアンラーニングを実行することができる。
キーを取り除き、オンザフライで学習し、パフォーマンスの劣化を避けることで、フォーミングを実現する。
論文 参考訳(メタデータ) (2025-07-04T04:12:34Z) - Alignment faking in large language models [41.40199382334199]
そこで本研究では,アライメント・フェイクに係わる大規模言語モデルについて述べる。
このモデルは、無料ユーザーの14%が有害なクエリに対応しているのに対して、有料ユーザーのほとんどいない。
また,モデルが強化学習によって有害なクエリに適合するように実際に訓練する効果についても検討し,アライメント・フェイキングの推論率を78%に向上させることを示した。
論文 参考訳(メタデータ) (2024-12-18T17:41:24Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。
このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Self-Ensemble Protection: Training Checkpoints Are Good Data Protectors [41.45649235969172]
自己アンサンブル保護(SEP)は、データに対する優れたモデルのトレーニングを防ぐために提案されている。
例えば、我々の小さな摂動により、CIFAR-10 ResNet18の精度は94.56%から14.68%に低下し、最もよく知られている方法は41.35%となった。
論文 参考訳(メタデータ) (2022-11-22T04:54:20Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。