論文の概要: Objective Matters: Fine-Tuning Objectives Shape Safety, Robustness, and Persona Drift
- arxiv url: http://arxiv.org/abs/2601.12639v1
- Date: Mon, 19 Jan 2026 01:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.719202
- Title: Objective Matters: Fine-Tuning Objectives Shape Safety, Robustness, and Persona Drift
- Title(参考訳): 目的:形状安全、ロバスト性、ペルソナドリフトの微調整対象
- Authors: Daniel Vennemeyer, Punya Syon Pandey, Phan Anh Duong, Michael Umeokoli, Samuel Ratnam,
- Abstract要約: 我々は,6つの微調整目標 – Supervised Fine-Tuning, Direct Preference Optimization, Conditional Fine-Tuning, Inoculation Prompting, Odds Ratio Preference Optimization, KL-regularized Fine-Tuning – を比較した。
客観的な選択は、安全能力のフロンティアに沿って、体系的でスケール依存的なシフトを引き起こす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning LLMs on benign data can still degrade alignment and adversarial robustness, yet direct analysis of the role of fine-tuning objectives in shaping these safety outcomes remain limited. We present a controlled comparison of six fine-tuning objectives -- Supervised Fine-Tuning, Direct Preference Optimization, Conditional Fine-Tuning, Inoculation Prompting, Odds Ratio Preference Optimization, and KL-regularized fine-tuning -- holding data, domain, architecture, and optimization fixed. Across closed-form reasoning and open-ended generation tasks, we find that objective choice induces systematic, scale-dependent shifts along the safety-capability frontier. At small training budgets, robustness is similar across objectives but capability differs. At larger budgets, objectives diverge sharply: supervised and preference-based tuning tightly couple capability gains to increased adversarial vulnerability and persona drift, while objectives that constrain learning signals -- especially ORPO and KL-regularization -- substantially mitigate both. Fine-tuning objectives therefore matter little for safety at small scales but become a primary driver of adversarial robustness and latent persona stability as training scale increases.
- Abstract(参考訳): 良質なデータ上の微調整LDMは、アライメントと対向ロバスト性は依然として低下するが、これらの安全結果を形作る上での微調整目的の役割を直接分析することは限られている。
我々は,データ保持,ドメイン,アーキテクチャ,最適化の6つの微調整目標 – 監視された微調整,直接選好最適化,条件付微調整,接種プロンプト,オッドス比選好最適化,KL正規化微調整 – の制御された比較を示す。
クローズドフォーム推論とオープンエンドジェネレーションタスク全体で、客観的な選択は、安全-能力フロンティアに沿って、体系的、スケール依存的なシフトを引き起こす。
小さなトレーニング予算では、ロバスト性は目的によって似ているが、能力は異なる。
監督と嗜好に基づくチューニングは、敵の脆弱性とペルソナのドリフトを増大させ、学習信号(特にORPOとKLの規則化)を制約する目的は、どちらも大幅に軽減される。
したがって、微調整の目的は、小規模では安全にはほとんど重要でないが、訓練の規模が大きくなるにつれて、敵の頑健さと潜伏するペルソナの安定性の第一の要因となる。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Corrigibility as a Singular Target: A Vision for Inherently Reliable Foundation Models [0.0]
ファンデーションモデル(FM)は、能力の規模が拡大するにつれ、人的制御の喪失に向けてデフォルトの軌道を駆動する。
提案する「特異ターゲットとしてのコリギビリティ」(CAST)設計のFMは、指定された人間のプリンシパルに誘導、修正、制御の権限を与えるものである。
論文 参考訳(メタデータ) (2025-06-03T16:36:03Z) - LORE: Lagrangian-Optimized Robust Embeddings for Visual Encoders [11.01163097340578]
ラグランジアン・ド・ロバスト・エンベディング(LORE:Lagrangian-d Robust Embeddings)を提案する。
LOREは、クリーンデータ精度の低下を最小限に抑え、ゼロショット対逆ロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T21:54:52Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。