論文の概要: Navigating the Alignment-Calibration Trade-off: A Pareto-Superior Frontier via Model Merging
- arxiv url: http://arxiv.org/abs/2510.17426v2
- Date: Thu, 30 Oct 2025 22:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.744268
- Title: Navigating the Alignment-Calibration Trade-off: A Pareto-Superior Frontier via Model Merging
- Title(参考訳): アライメント・キャリブレーションのトレードオフをナビゲートする:モデルマージによるパレト・スーパーフロンティア
- Authors: Tiancheng Hu, Benjamin Minixhofer, Nigel Collier,
- Abstract要約: ポストトレーニングの「アライメント税」は通常、タスクの正確さの低下として表される。
また、キャリブレーションが著しく失われ、モデルが過度に信頼され、信頼性が低く、モデル出力がより多様になることも示しています。
このトレードオフは、モデルの重みの補間とアライメント前後の補間という、単純なポストホック介入によって効果的にナビゲートできることを示す。
- 参考スコア(独自算出の注目度): 35.958192369444056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "alignment tax" of post-training is typically framed as a drop in task accuracy. We show it also involves a severe loss of calibration, making models overconfident, less reliable, and model outputs less diverse. We show that this trade-off can be navigated effectively via a simple post-hoc intervention: interpolating between a model's weights before and after alignment. Crucially, this is not a strict trade-off. We find that the process consistently reveals Pareto-optimal interpolations - models that improve accuracy beyond both parents while substantially recovering the calibration lost during alignment. Our work demonstrates that simple model merging provides a computationally efficient method for mitigating the full scope of the alignment tax, yielding models that are more capable and more reliable.
- Abstract(参考訳): ポストトレーニングの「アライメント税」は通常、タスクの正確さの低下として表される。
また、キャリブレーションが著しく失われ、モデルが過度に信頼され、信頼性が低く、モデル出力がより多様になることも示しています。
このトレードオフは、モデルの重みの補間とアライメント前後の補間という、単純なポストホック介入によって効果的にナビゲートできることを示す。
重要なのは、これは厳格なトレードオフではない。
このプロセスはパレート最適補間(Pareto-Optimal interpolations)を一貫して明らかにする。
我々の研究は、単純なモデルマージが、アライメント税の全範囲を緩和し、より有能で信頼性の高いモデルを生み出す、計算的に効率的な方法を提供することを示した。
関連論文リスト
- Why Alignment Must Precede Distillation: A Minimal Working Explanation [50.784080714897776]
標準のKD -> Alignワークフローは、稀だが望ましい振る舞いを整列するためにモデルの能力を低下させる。
蒸留に先立って,まず高リコール基準でアライメントを行わなければならないことを示す。
論文 参考訳(メタデータ) (2025-09-28T06:12:19Z) - Stochastic Interpolants via Conditional Dependent Coupling [36.84747986070112]
既存の画像生成モデルは、計算と忠実性のトレードオフに関して重要な課題に直面している。
提案した条件依存結合戦略に基づく統合型多段階生成フレームワークを提案する。
生成過程を複数の段階で補間軌道に分解し、エンドツーエンドの最適化を可能にしながら正確な分布学習を保証する。
論文 参考訳(メタデータ) (2025-09-27T05:03:08Z) - Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach [34.478524949495345]
大言語モデル(LLM)の成功のための重要な技術である選好アライメント
本稿では,リコメンデーションアライメントがキャリブレーションになぜ影響するか,この問題にどう対処するかを検討する。
論文 参考訳(メタデータ) (2025-05-04T05:42:51Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Calibrated and Sharp Uncertainties in Deep Learning via Density Estimation [10.209143402485406]
本稿では, キャリブレーションが重要であり, 維持が容易であることを論じる。
校正されたモデルを生成する再校正に基づく簡単なトレーニング手順を導入し、全体的な性能を犠牲にしない。
論文 参考訳(メタデータ) (2021-12-14T06:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。