論文の概要: Model Spec Midtraining: Improving How Alignment Training Generalizes
- arxiv url: http://arxiv.org/abs/2605.02087v1
- Date: Sun, 03 May 2026 23:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.073812
- Title: Model Spec Midtraining: Improving How Alignment Training Generalizes
- Title(参考訳): モデルスペックミッドトレーニング:アライメントトレーニングの一般化の改善
- Authors: Chloe Li, Sara Price, Samuel Marks, Jon Kutasov,
- Abstract要約: モデル仕様中間訓練(MSM)は、モデルに仕様の内容を教え、デモデータからどのように一般化するかを形作る。
MSMは、アライメントトレーニングからモデルをどのように一般化するかを制御し、改善するための、シンプルで効果的なテクニックである。
- 参考スコア(独自算出の注目度): 2.4751072829080782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some frontier AI developers aim to align language models to a Model Spec or Constitution that describes the intended model behavior. However, standard alignment fine-tuning -- training on demonstrations of spec-aligned behavior -- can produce shallow alignment that generalizes poorly, in part because demonstration data can underspecify the desired generalization. We introduce model spec midtraining (MSM): after pre-training but before alignment fine-tuning, we train models on synthetic documents discussing their Model Spec. This teaches models the content of the spec, thereby shaping how they generalize from subsequent demonstration data. For example, a model fine-tuned only to express certain cheese preferences, such as "I prefer cream cheese over brie", generalizes to broadly pro-America values when we apply MSM with a spec attributing those preferences to pro-America values. Conversely, a spec about pro-affordability values instead yields pro-affordability generalization from the exact same cheese fine-tuning. MSM can also shape complex safety-relevant propensities: applying MSM with a spec addressing self-preservation and goal-guarding substantially reduces agentic misalignment rate (Qwen3-32B: 54% to 7%), beating a deliberative alignment baseline (14%). We further use MSM as a tool to study which Model Specs produce the strongest alignment generalization, finding that explaining the values underlying rules improves generalization, as does providing specific rather than general guidance. Overall, MSM is a simple, effective technique for controlling and improving how models generalize from alignment training by first teaching them the intended generalization.
- Abstract(参考訳): 一部のフロンティアAI開発者は、言語モデルを意図したモデル振る舞いを記述するモデル仕様やコンスティチューションに合わせることを目指している。
しかし、標準アライメントの微調整 -- スペックアライメントの動作のデモに関するトレーニング -- は、不足して一般化する浅いアライメントを生み出す可能性がある。
モデル仕様ミッドトレーニング(MSM: Model Spec Midtraining)を導入し、事前トレーニングを行った後、微調整を行う前に、モデル仕様について議論する合成文書上でモデルを訓練する。
これは仕様の内容をモデルに教え、その後のデモデータからどのように一般化するかを形作る。
例えば、"I prefer cream cheese than brie" のような特定のチーズの嗜好を表現するためだけに微調整されたモデルでは、その嗜好をプロ・アメリカ的価値に寄与する仕様のSMを適用する際に、広くプロ・アメリカ的価値に一般化される。
逆に、プロアクドダビビリティ値に関する仕様は、全く同じチーズ微調整からプロアクドダビビリティの一般化をもたらす。
MSMは、自己保存とゴールガードに対処する仕様でMSMを適用することで、エージェントのミスアライメント率(Qwen3-32B: 54%から7%)を大幅に減少させ、熟考的アライメントベースライン(14%)を打破する。
さらに、モデルスペックがどの最強アライメント一般化を創出するかを研究するツールとしてMSMを使用し、ルールの根底にある値を説明することによって一般化が向上し、一般的なガイダンスよりも具体的なものを提供する。
全体として、MSMはモデルがアライメントトレーニングからどのように一般化するかを、意図した一般化を最初に教えることによって制御し、改善するための、シンプルで効果的な手法である。
関連論文リスト
- Specificity-aware reinforcement learning for fine-grained open-world classification [54.85385270439992]
オープンワールド設定下でのきめ細かい視覚概念の分類は、モデルが正確かつ具体的であることを要求します。
細粒度画像分類に基づく細粒度推論LMMのための特異性認識型強化学習フレームワークSpeciaRLを提案する。
論文 参考訳(メタデータ) (2026-03-03T17:52:39Z) - Alignment-Aware Model Adaptation via Feedback-Guided Optimization [27.93864970404945]
ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T16:03:16Z) - Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning [12.179304379042401]
微調整された大きな言語モデルは意図しないアウト・オブ・ディストリビューションの一般化につながる可能性がある。
本稿では,LCMがファインチューニングからどのように一般化するかを制御するために,CAFT(Concept Ablation Fine-Tuning)を導入する。
CAFTは、微調整中に線形射影の概念を非難し、意図しない一般化からモデルを遠ざける。
論文 参考訳(メタデータ) (2025-07-22T17:45:04Z) - Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels [33.84519044168631]
本稿では,事前学習した言語モデルを好みラベルや実演を必要とせずに微調整するアルゴリズムであるSAMIを紹介する。
単ターン対話および要約において、SAMI訓練ミストラル7bは、初期事前学習モデルよりも優れる。
この結果から,事前学習したLMは,優先ラベルやデモ,人間の監視を使わずに,構成に従うことができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T16:20:36Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。