論文の概要: Consistency Training Can Entrench Misalignment
- arxiv url: http://arxiv.org/abs/2606.03810v2
- Date: Wed, 03 Jun 2026 10:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.641127
- Title: Consistency Training Can Entrench Misalignment
- Title(参考訳): 一貫性トレーニングはミスアライメントを封じ込める
- Authors: David Demitri Africa, Arathi Mani,
- Abstract要約: モデル生物108種を対象に, 整合性学習法を7種類試験した。
整合性トレーニングは、一般的に報酬のハッキングを抑え、創発的ミスアライメントをミスアライメントするが、梅毒症を増幅する。
本稿では, 整合性ラベリングプロセスによって誘導される分布変化が, 選択演算子の変動ではなく, 系統的アライメント効果の第一の要因であることを示す。
- 参考スコア(独自算出の注目度): 0.47745223151611654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, scalable, and largely label-free, but their effects on model alignment remain poorly understood. Could the self-bootstrapping nature of these methods amplify undesired behavior in models? We test seven consistency training methods on 108 model organisms: open-source models (7B--70B) fine-tuned to exhibit various forms of controlled misaligned behavior. We find that outcomes vary significantly: consistency training generally suppresses reward hacking and emergent misalignment but amplifies sycophancy. We present evidence that distribution shifts induced by the consistency labeling process, rather than variation in the selection operators, may be the primary driver of systematic alignment effects. Finally, we present a unifying theoretical framework to derive conditions under which consistency training will amplify or suppress misalignment. In total, our study establishes that consistency training is not alignment-neutral, and that its use in critical systems should be carefully audited.
- Abstract(参考訳): 一貫性トレーニングは、モデルが関連する入力やサンプリング手順にまたがって同様の出力を生成することを奨励する。
このような手法は単純で拡張性があり、ほとんどラベルなしであるが、モデルアライメントに対する影響はよく分かっていない。
これらの手法の自己ブートストラップの性質は、モデルにおける望ましくない振る舞いを増幅するだろうか?
オープンソースモデル (7B--70B) を微調整し, 各種の制御ミスアライメント動作を示す。
一貫性トレーニングは、一般的に報酬のハッキングや創発的なミスアライメントを抑えるが、梅毒症を増幅する。
本稿では, 整合性ラベリングプロセスによって誘導される分布変化が, 選択演算子の変動ではなく, 系統的アライメント効果の第一の要因であることを示す。
最後に、整合性トレーニングが不整合を増幅または抑制する条件を導出するための統一的理論的枠組みを提案する。
総じて, 整合性トレーニングはアライメントニュートラルではなく, クリティカルシステムでの使用は慎重に監査されるべきである。
関連論文リスト
- Consistency Training while Mitigating Obfuscation via Rate Matching [6.354949885860511]
大規模な言語モデルはしばしば、ユーザの好みの回答を明らかにするなど、外部の入力機能の影響を受けます。
既存のメソッドは、応答全体や内部のアクティベーションに対する一貫性をトレーニングします。
このことが難読化につながることを示しているが、そこではモデルがキューに言及しないように学習し、その影響で監視性が損なわれる可能性がある。
本稿では,この動作の表現方法に制約を加えることなく,選択した動作特性に対する一貫性をトレーニングするRMCT(Rate Matching Consistency Training)を紹介する。
論文 参考訳(メタデータ) (2026-06-01T13:10:49Z) - Stochasticity in Tokenisation Improves Robustness [24.37716137082741]
入力のトークン化の摂動における脆弱性は、決定論的正準トークン化で訓練されたモデルは、敵の攻撃に対して脆弱であることを示している。
近年の研究では、トークン化は摂動に敏感でない内部表現をもたらすことが示唆されている。
論文 参考訳(メタデータ) (2026-04-17T13:05:46Z) - Single-weight Model Editing for Post-hoc Spurious Correlation Neutralization [54.8794775172033]
ニューラルネットワークのトレーニングは、トレーニング損失を最小限に抑えるショートカットとして、最も単純な機能を利用する傾向がある。
これらの特徴のいくつかは、ターゲットラベルと急激な相関関係があり、モデルによる誤った予測につながる可能性がある。
本稿では,一重の修正を行なえる独特な厳密なクラス除去手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T02:22:42Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。