論文の概要: FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization
- arxiv url: http://arxiv.org/abs/2410.00508v1
- Date: Mon, 14 Oct 2024 10:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:16:55.521023
- Title: FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization
- Title(参考訳): FlipGuard: 制約付き最適化による更新回帰に対する優先度アライメントの回避
- Authors: Mingye Zhu, Yi Liu, Quan Wang, Junbo Guo, Zhendong Mao,
- Abstract要約: 焦点を絞った回帰を検知・更新するための制約付き最適化手法であるFlipGuardを提案する。
実験によると、FlipGuardは更新の回帰を効果的に軽減し、全体的なパフォーマンスが優れている。
- 参考スコア(独自算出の注目度): 27.98545567048904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in preference alignment have significantly improved Large Language Models' ability to generate texts that align with human preferences and values. However, current alignment metrics typically emphasize the post-hoc overall improvement, while overlooking a critical aspect: regression, which refers to the backsliding on previously correctly-handled data after updates. This potential pitfall may arise from excessive fine-tuning on already well-aligned data, which subsequently leads to over-alignment and degeneration. To address this challenge, we propose FlipGuard, a constrained optimization approach to detect and mitigate update regression with focal attention. Specifically, FlipGuard identifies performance degradation using a customized reward characterization and strategically enforces a constraint to encourage conditional congruence with the pre-aligned model during training. Comprehensive experiments demonstrate that FlipGuard effectively alleviates update regression while demonstrating excellent overall performance, with the added benefit of knowledge preservation while aligning preferences.
- Abstract(参考訳): 近年の嗜好調整のブレークスルーにより、人間の嗜好や価値観に沿ったテキストを生成する大規模言語モデルの能力が大幅に向上した。
しかしながら、現在のアライメントメトリクスは一般的に、ポストホック後の全体的な改善を強調し、重要な側面:リグレッション(Regress)は、以前の正しく処理されたデータの更新後のバックスライディングを指す。
この潜在的な落とし穴は、既に整列したデータの過度な微調整によって生じる可能性がある。
この課題に対処するために、焦点を絞った更新回帰の検出と緩和を行う制約付き最適化手法であるFlipGuardを提案する。
具体的には、FlipGuardはカスタマイズされた報酬のキャラクタリゼーションを使用してパフォーマンスの劣化を特定し、トレーニング中に事前調整されたモデルとの条件整合を促進するための制約を戦略的に強制する。
総合的な実験により、FlipGuardは更新回帰を効果的に軽減し、全体的なパフォーマンスを向上し、好みを調整しながら知識保存のメリットを付加した。
関連論文リスト
- RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - Decoding-time Realignment of Language Models [44.54462397717971]
そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
論文 参考訳(メタデータ) (2024-02-05T13:31:28Z) - Refiner: Data Refining against Gradient Leakage Attacks in Federated
Learning [28.76786159247595]
グラデーションリーク攻撃は クライアントのアップロードした勾配を利用して 機密データを再構築する
本稿では,従来の勾配摂動から分離した新しい防御パラダイムについて検討する。
プライバシ保護とパフォーマンス維持のための2つのメトリクスを共同で最適化するRefinerを設計する。
論文 参考訳(メタデータ) (2022-12-05T05:36:15Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Learning Prediction Intervals for Regression: Generalization and
Calibration [12.576284277353606]
不確実性定量のための回帰における予測間隔の生成について検討する。
我々は一般学習理論を用いて、リプシッツ連続性とVC-サブグラフクラスを含む最適性と実現可能性のトレードオフを特徴づける。
我々は既存のベンチマークと比べてテスト性能の点で、区間生成とキャリブレーションアルゴリズムの強みを実証的に示している。
論文 参考訳(メタデータ) (2021-02-26T17:55:30Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Optimal Feature Manipulation Attacks Against Linear Regression [64.54500628124511]
本稿では,データセットに慎重に設計した有害なデータポイントを付加したり,元のデータポイントを修正したりすることで,線形回帰による係数の操作方法について検討する。
エネルギー予算を考慮し, 目標が指定された回帰係数を1つ変更する場合に, 最適毒素データ点の閉形式解をまず提示する。
次に、攻撃者が1つの特定の回帰係数を変更しつつ、他をできるだけ小さく変更することを目的とした、より困難なシナリオに分析を拡張します。
論文 参考訳(メタデータ) (2020-02-29T04:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。