論文の概要: (Mis)generalization of Helpful-only Fine-tuning
- arxiv url: http://arxiv.org/abs/2606.04413v1
- Date: Wed, 03 Jun 2026 03:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.523589
- Title: (Mis)generalization of Helpful-only Fine-tuning
- Title(参考訳): (ミス)ヘルプオンリーファインチューニングの一般化
- Authors: Mohammad Omar Khursheed, Baram Sosis, Fabien Roger,
- Abstract要約: 既存の有用な専用モデルの欠点について検討する。
単純な反拒絶訓練はこれらの問題の多くを引き起こす可能性があることを示す。
合成文書の微調整と文字関連質問をSFTとRLに付加することで、それらを緩和できることを示す。
- 参考スコア(独自算出の注目度): 3.04457800682145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Helpful-only models, that is, models that are trained to always follow user intent, are valuable for dangerous capability evaluations and other areas of AI R&D where refusals would be an obstacle. Little is known about the generalization properties of helpful-only training: helpful-only models refuse less than their harmless counterparts, but previous work has not studied other dimensions of their alignment. We study the shortcomings of existing helpful-only models. We find that some show emergent misalignment, others have residual refusal behaviors, and most show poor steerability, sycophancy, and incoherent character. We show that simple anti-refusal training can cause many of these issues. None of these problems are necessary consequences of helpful-only training, though: we show that synthetic document fine-tuning and adding character-related questions to SFT and RL can mitigate them.
- Abstract(参考訳): ヘルパーオンリーのモデル、すなわち、常にユーザーの意図に従うように訓練されたモデルは、危険な能力評価や、拒絶が障害となるAI R&Dの他の領域にとって価値がある。
補助専用モデルの一般化特性についてはほとんど分かっていない: 補助専用モデルは無害なモデルよりも小さく拒否するが、以前の研究はそれらのアライメントの他の次元について研究していない。
既存の有用な専用モデルの欠点について検討する。
また,一部の症状は不一致を示し,他の症例は拒絶行動が残っており,そのほとんどは操縦性,体性,不整合性を示すことが判明した。
単純な反拒絶訓練はこれらの問題の多くを引き起こす可能性があることを示す。
SFTとRLに文字関連質問を合成文書の微調整と追加することで、これらの問題を軽減できることが示されている。
関連論文リスト
- Single-weight Model Editing for Post-hoc Spurious Correlation Neutralization [54.8794775172033]
ニューラルネットワークのトレーニングは、トレーニング損失を最小限に抑えるショートカットとして、最も単純な機能を利用する傾向がある。
これらの特徴のいくつかは、ターゲットラベルと急激な相関関係があり、モデルによる誤った予測につながる可能性がある。
本稿では,一重の修正を行なえる独特な厳密なクラス除去手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T02:22:42Z) - Chained Tuning Leads to Biased Forgetting [20.181135590652985]
下流タスクでトレーニングされたモデルは、反対の順序でトレーニングされたモデルよりもはるかに安全チューニングを忘れていることを示す。
忘れることが特定のグループの安全情報に悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-12-21T03:51:58Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy [45.413801663923564]
会員推論攻撃(MIA)の未学習環境への適応について論じる。
未学習文学において一般的に用いられるU-MIAは、既存の未学習技術が視覚モデルと言語モデルの両方で持つプライバシー保護を過大評価していることを示す。
論文 参考訳(メタデータ) (2024-03-02T14:22:40Z) - Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem [12.185261182744377]
本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。
モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。
標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
論文 参考訳(メタデータ) (2024-02-05T10:30:47Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - SAME: Sample Reconstruction against Model Extraction Attacks [16.057055009802923]
ディープラーニングモデルに対する大きな脅威の1つは、モデル攻撃である。
そこで本研究では,サンプル再構成の概念に基づく新しい防御機構であるTHETについて紹介する。
我々の実験は、最先端のソリューションよりもITSの優れた効果を裏付けるものである。
論文 参考訳(メタデータ) (2023-12-17T01:44:29Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。