論文の概要: Probe-based Fine-tuning for Reducing Toxicity
- arxiv url: http://arxiv.org/abs/2510.21531v1
- Date: Fri, 24 Oct 2025 14:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.434605
- Title: Probe-based Fine-tuning for Reducing Toxicity
- Title(参考訳): プローブを用いた微調整による毒性低減
- Authors: Jan Wehner, Mario Fritz,
- Abstract要約: 提案手法は,Supervised Fine-tuning と Direct Preference Optimization の2つである。
トレーニング後のプローブ検出器の精度を維持するため,(1)プローブのアンサンブルに対するトレーニング,(2)訓練に使用しない保持型プローブの保持,(3)訓練後の新しいプローブの再訓練を行う。
- 参考スコア(独自算出の注目度): 42.748251501312325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probes trained on model activations can detect undesirable behaviors like deception or biases that are difficult to identify from outputs alone. This makes them useful detectors to identify misbehavior. Furthermore, they are also valuable training signals, since they not only reward outputs, but also good internal processes for arriving at that output. However, training against interpretability tools raises a fundamental concern: when a monitor becomes a training target, it may cease to be reliable (Goodhart's Law). We propose two methods for training against probes based on Supervised Fine-tuning and Direct Preference Optimization. We conduct an initial exploration of these methods in a testbed for reducing toxicity and evaluate the amount by which probe accuracy drops when training against them. To retain the accuracy of probe-detectors after training, we attempt (1) to train against an ensemble of probes, (2) retain held-out probes that aren't used for training, and (3) retrain new probes after training. First, probe-based preference optimization unexpectedly preserves probe detectability better than classifier-based methods, suggesting the preference learning objective incentivizes maintaining rather than obfuscating relevant representations. Second, probe diversity provides minimal practical benefit - simply retraining probes after optimization recovers high detection accuracy. Our findings suggest probe-based training can be viable for certain alignment methods, though probe ensembles are largely unnecessary when retraining is feasible.
- Abstract(参考訳): モデルアクティベーションで訓練されたプローブは、アウトプットのみから識別するのが難しい欺きや偏見のような望ましくない行動を検出することができる。
これにより、それらは誤動作を特定するのに有用な検出器となる。
さらに、それらは出力に報酬を与えるだけでなく、その出力に到達するための優れた内部プロセスであるため、貴重なトレーニング信号でもある。
しかしながら、解釈可能性ツールに対するトレーニングは、モニターがトレーニング対象になると信頼性がなくなるという根本的な懸念を引き起こす(Goodhartの法則)。
提案手法は,スーパービジョンファインチューニングと直接選好最適化に基づくプローブに対する2つのトレーニング手法を提案する。
本研究は,これらの手法を実験室で初期の調査を行い,毒性を低減し,プローブの精度が低下する量を評価する。
トレーニング後のプローブ検出器の精度を維持するため,(1)プローブのアンサンブルに対するトレーニング,(2)訓練に使用しない保持型プローブの保持,(3)訓練後の新しいプローブの再訓練を行う。
第一に、プローブに基づく選好最適化は、分類器に基づく手法よりもプローブ検出性を予期せず保存し、選好学習の目的は、関連する表現を難読化するのではなく、維持を動機付けることを示唆している。
第二に、プローブの多様性は最小限の実用的利益をもたらし、最適化後にプローブを再訓練するだけで高い検出精度が回復する。
本研究は, プローブアンサンブルは再訓練が可能である場合, ほぼ不要であるが, 特定のアライメント法ではプローブベーストレーニングが有効であることが示唆された。
関連論文リスト
- Optimal Parameter and Neuron Pruning for Out-of-Distribution Detection [36.4610463573214]
我々は,textbfOptimal textbfParameter と textbfNeuron textbfPruning (textbfOPNP) アプローチを提案し,OODサンプルを検出する。
我々の提案は、トレーニングフリーで、他のポストホックメソッドと互換性があり、すべてのトレーニングデータから情報を探索する。
論文 参考訳(メタデータ) (2024-02-04T07:31:06Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Out-of-Scope Intent Detection with Self-Supervision and Discriminative
Training [20.242645823965145]
タスク指向対話システムにおいて、スコープ外インテント検出は実用上重要である。
本稿では,テストシナリオをシミュレートして,スコープ外インテント分類器をエンドツーエンドに学習する手法を提案する。
提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-16T08:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。