論文の概要: Steering Language Models with Weight Arithmetic
- arxiv url: http://arxiv.org/abs/2511.05408v1
- Date: Fri, 07 Nov 2025 16:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.841538
- Title: Steering Language Models with Weight Arithmetic
- Title(参考訳): 重み付き算術的言語モデルのステアリング
- Authors: Constanza Fierro, Fabien Roger,
- Abstract要約: 重み算術を用いてモデルパラメータを編集する簡易なポストトレーニング手法であるコントラッシブ・ウェイト・ステアリングを提案する。
我々は、この手法を用いて、梅毒を緩和し、誤診を誘発する。
また、タスク固有の微調整の文脈では、ウェイトステアリングは、望ましくない振る舞いの漂流を部分的に軽減できることを示す。
- 参考スコア(独自算出の注目度): 9.267350549321204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing high-quality feedback to Large Language Models (LLMs) on a diverse training distribution can be difficult and expensive, and providing feedback only on a narrow distribution can result in unintended generalizations. To better leverage narrow training data, we propose contrastive weight steering, a simple post-training method that edits the model parameters using weight arithmetic. We isolate a behavior direction in weight-space by subtracting the weight deltas from two small fine-tunes -- one that induces the desired behavior and another that induces its opposite -- and then add or remove this direction to modify the model's weights. We apply this technique to mitigate sycophancy and induce misalignment, and find that weight steering often generalizes further than activation steering, achieving stronger out-of-distribution behavioral control before degrading general capabilities. We also show that, in the context of task-specific fine-tuning, weight steering can partially mitigate undesired behavioral drift: it can reduce sycophancy and under-refusals introduced during fine-tuning while preserving task performance gains. Finally, we provide preliminary evidence that emergent misalignment can be detected by measuring the similarity between fine-tuning updates and an "evil" weight direction, suggesting that it may be possible to monitor the evolution of weights during training and detect rare misaligned behaviors that never manifest during training or evaluations.
- Abstract(参考訳): 多様なトレーニングディストリビューション上で、LLM(Large Language Models)に対する高品質なフィードバックを提供することは、困難でコストがかかり、狭いディストリビューションにのみフィードバックを提供することは、意図しない一般化をもたらす可能性がある。
より狭いトレーニングデータを活用するために,重み算術を用いてモデルパラメータを編集する単純なポストトレーニング手法であるコントラッシブ・ウェイト・ステアリングを提案する。
重み空間における振舞いの方向を、所望の振舞いと反対の振舞いを誘導する2つの小さな微構造から減じることで分離し、モデルの重みを変更するためにこの方向を追加したり取り除いたりすることで、分離する。
本手法は, サイコフィナンスを緩和し, 不整合を誘導するために応用され, 重量ステアリングが活性化ステアリング以上に一般化されることがしばしばあり, 汎用能力を低下させる前に, 分配行動制御の強化を実現する。
また、タスク固有の微調整の文脈では、ウェイトステアリングは、望ましくない振る舞いの漂流を部分的に軽減することができる。
最後に、微調整更新と「悪」重み方向の類似性を測定し、トレーニング中の体重の変動をモニターし、トレーニング中や評価中に決して現れない稀な不整合行動を検出することができることを示唆して、創発的不整合を検知できる予備的証拠を提供する。
関連論文リスト
- Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Pay Attention to Small Weights [26.613296190219103]
NanoADAMは、微調整中に小さなマグニチュードのみを動的に更新する。
これは、事前訓練中に学んだ重要な特徴をエンコードする可能性が高い、大きなマグニチュードの重量を保存する。
論文 参考訳(メタデータ) (2025-06-26T15:22:55Z) - Improved Representation Steering for Language Models [50.86411958644953]
我々は新しいReference-free Preference Steering (RePS)を通して表現ステアリングを改善する方法を示す。
2Bから27Bまでのサイズを持つGemmaモデルでは、RePSは言語モデリングの目的で訓練された既存のステアリングメソッドよりも優れています。
抑圧においては、RePSはGemma-2の言語モデリングの目的と一致し、より大きなGemma-3の変種よりも優れている。
論文 参考訳(メタデータ) (2025-05-27T07:16:40Z) - Single-weight Model Editing for Post-hoc Spurious Correlation Neutralization [54.8794775172033]
ニューラルネットワークのトレーニングは、トレーニング損失を最小限に抑えるショートカットとして、最も単純な機能を利用する傾向がある。
これらの特徴のいくつかは、ターゲットラベルと急激な相関関係があり、モデルによる誤った予測につながる可能性がある。
本稿では,一重の修正を行なえる独特な厳密なクラス除去手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T02:22:42Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。