論文の概要: Alignment-Aware Model Adaptation via Feedback-Guided Optimization
- arxiv url: http://arxiv.org/abs/2602.02258v2
- Date: Thu, 05 Feb 2026 17:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 16:28:44.937437
- Title: Alignment-Aware Model Adaptation via Feedback-Guided Optimization
- Title(参考訳): フィードバック誘導最適化によるアライメントを考慮したモデル適応
- Authors: Gaurav Bhatt, Aditya Chinchure, Jiawei Zhou, Leonid Sigal,
- Abstract要約: ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.93864970404945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is the primary mechanism for adapting foundation models to downstream tasks; however, standard approaches largely optimize task objectives in isolation and do not account for secondary yet critical alignment objectives (e.g., safety and hallucination avoidance). As a result, downstream fine-tuning can degrade alignment and fail to correct pre-existing misaligned behavior. We propose an alignment-aware fine-tuning framework that integrates feedback from an external alignment signal through policy-gradient-based regularization. Our method introduces an adaptive gating mechanism that dynamically balances supervised and alignment-driven gradients on a per-sample basis, prioritizing uncertain or misaligned cases while allowing well-aligned examples to follow standard supervised updates. The framework further learns abstention behavior for fully misaligned inputs, incorporating conservative responses directly into the fine-tuned model. Experiments on general and domain-specific instruction-tuning benchmarks demonstrate consistent reductions in harmful and hallucinated outputs without sacrificing downstream task performance. Additional analyses show robustness to adversarial fine-tuning, prompt-based attacks, and unsafe initializations, establishing adaptively gated alignment optimization as an effective approach for alignment-preserving and alignment-recovering model adaptation.
- Abstract(参考訳): ファインチューニングは、基礎モデルを下流タスクに適用するための主要なメカニズムであるが、標準的なアプローチは、タスクの目的を独立して最適化し、二次的かつ重要なアライメント目標(例えば、安全と幻覚の回避)を考慮しない。
その結果、下流の微調整はアライメントを低下させ、既存のミスアライメント動作の修正に失敗する。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
本手法では, 適応ゲーティング機構を導入し, 教師付きおよびアライメント駆動の勾配を各サンプルごとに動的にバランスさせ, 不確実な事例や不一致事例を優先順位付けし, 整合性のある事例を標準教師付き更新に追従できるようにする。
このフレームワークは、完全にミスアライメントされた入力に対する禁忌動作を学習し、保守的な応答を直接微調整されたモデルに組み込む。
一般およびドメイン固有の命令チューニングベンチマークの実験では、下流タスク性能を犠牲にすることなく、有害かつ幻覚的な出力が一貫した減少を示す。
追加分析は、アライメント保存およびアライメント回復モデル適応のための効果的なアプローチとして適応的にゲートされたアライメント最適化を確立することで、敵の微調整、即時攻撃、安全でない初期化に対するロバスト性を示す。
関連論文リスト
- AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments [7.201566646241765]
コンフォーマル予測法は、コンフォーマル閾値を適応的にスケーリングすることで目標範囲を維持する。
この固定幾何は, 環境が構造変化を起こすと, 極めて保守的で, 容積非効率な予測領域につながることを示す。
非整合スコアパラメータと整合しきい値の両方をオンライン化するためのフレームワークである textbfAdaptNC を提案する。
論文 参考訳(メタデータ) (2026-02-02T04:41:35Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Linear Preference Optimization: Decoupled Gradient Control via Absolute Regularization [13.97375970293678]
DPO(Direct Preference Optimization)は、その単純さと訓練安定性から、オフライン優先最適化アルゴリズムとして広く使われている。
3つの重要なイノベーションを特徴とする新しいアライメントフレームワークであるLinear Preference Optimization (LPO)を提案する。
まず,対数シグモイド関数を絶対差分損失に置き換え,最適化力学を分離することで勾配デカップリングを導入する。
第2に、選択された応答品質を維持するために、オフセット制約と正の正則化項を組み合わせることで安定性を向上させる。
第3に、直感的な推定を伴う勾配分離と、その相対確率の降下を線形に制御する調整可能な係数を用いて、制御可能な拒絶抑制を実装した。
論文 参考訳(メタデータ) (2025-08-20T10:17:29Z) - NPO: Learning Alignment and Meta-Alignment through Structured Human Feedback [0.0]
我々は,人間のループ内決定システムにおけるフィードバック駆動型適応を運用するアライメント対応学習フレームワークであるNPOを提案する。
NPOは、構造化されたフィードバックの下で測定可能で、監視可能で、再現可能なアライメント損失の形式化を導入する。
論文 参考訳(メタデータ) (2025-07-22T11:23:18Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。