論文の概要: Contrastive Knowledge Transfer and Robust Optimization for Secure Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.27077v1
- Date: Fri, 31 Oct 2025 00:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.944767
- Title: Contrastive Knowledge Transfer and Robust Optimization for Secure Alignment of Large Language Models
- Title(参考訳): 大規模言語モデルのセキュアアライメントのための対照的な知識伝達とロバスト最適化
- Authors: Jiasen Zheng, Huajun Zhang, Xu Yan, Ran Hao, Chong Peng,
- Abstract要約: 本稿では,安全アライメントとロバストネスにおける大規模言語モデルの限界に対処する。
コントラスト蒸留とノイズロバストトレーニングを組み合わせた微調整法を提案する。
その結果,本手法は知識伝達,堅牢性,全体的な安全性において,既存のベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 9.353236468990945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the limitations of large-scale language models in safety alignment and robustness by proposing a fine-tuning method that combines contrastive distillation with noise-robust training. The method freezes the backbone model and transfers the knowledge boundaries of the teacher model to the student model through distillation, thereby improving semantic consistency and alignment accuracy. At the same time, noise perturbations and robust optimization constraints are introduced during training to ensure that the model maintains stable predictive outputs under noisy and uncertain inputs. The overall framework consists of distillation loss, robustness loss, and a regularization term, forming a unified optimization objective that balances alignment ability with resistance to interference. To systematically validate its effectiveness, the study designs experiments from multiple perspectives, including distillation weight sensitivity, stability analysis under computation budgets and mixed-precision environments, and the impact of data noise and distribution shifts on model performance. Results show that the method significantly outperforms existing baselines in knowledge transfer, robustness, and overall safety, achieving the best performance across several key metrics. This work not only enriches the theoretical system of parameter-efficient fine-tuning but also provides a new solution for building safer and more trustworthy alignment mechanisms.
- Abstract(参考訳): 本稿では, コントラスト蒸留とノイズロバスト訓練を組み合わせた微調整手法を提案することにより, 安全アライメントとロバスト性における大規模言語モデルの限界に対処する。
本手法は,教師モデルの知識境界を蒸留により生徒モデルに伝達し,意味的一貫性とアライメント精度を向上させる。
同時に、ノイズ摂動と頑健な最適化の制約を導入し、ノイズや不確実な入力の下で安定な予測出力を維持する。
全体的な枠組みは蒸留損失、ロバスト性損失、正規化項で構成され、干渉に対する抵抗とアライメント能力のバランスをとる統一最適化目標を形成する。
提案手法の有効性を体系的に検証するため, 蒸留重量感度, 計算予算および混合精度環境下での安定性解析, データノイズと分布シフトがモデル性能に与える影響など, 様々な観点から実験を設計した。
その結果,本手法は知識伝達,堅牢性,全体的な安全性において,既存のベースラインを著しく上回り,いくつかの重要な指標で最高の性能を達成できることが示唆された。
この研究は、パラメータ効率の良い微調整の理論システムを強化するだけでなく、より安全で信頼性の高いアライメント機構を構築するための新しいソリューションも提供する。
関連論文リスト
- LLM-Centric RAG with Multi-Granular Indexing and Confidence Constraints [5.2604064919135896]
本稿では,複雑な知識環境下での検索強化生成において,不十分なカバレッジ,不安定な結果,信頼性の制限といった問題に対処する。
複数粒度メモリインデックスと不確実性推定を統合した信頼度制御法を提案する。
提案手法は,QA精度,検索リコール,ランキング品質,事実整合性において,既存モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-30T23:48:37Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Feed Two Birds with One Scone: Exploiting Function-Space Regularization for Both OOD Robustness and ID Fine-Tuning Performance [72.57668440744301]
シミュレーションOODサンプルを用いて,関数空間における微調整モデルと事前学習モデルの距離を制約する新しい正規化を提案する。
このアプローチは、ダウンストリームタスクIDの微調整性能と、さまざまなCLIPバックボーン間のOODロバスト性の両方を一貫して改善できる。
論文 参考訳(メタデータ) (2025-08-31T12:14:34Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Uncertainty-aware multi-fidelity surrogate modeling with noisy data [0.0]
実世界の応用では、測定や数値ノイズによる高忠実度モデルと低忠実度モデルの両方に不確実性が存在する。
本稿では,ノイズ汚染データを扱う多要素代理モデリングのための包括的フレームワークを提案する。
提案するフレームワークは,物理実験と計算モデルを組み合わせた自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-01-12T08:37:41Z) - Towards Safe Multi-Task Bayesian Optimization [1.3654846342364308]
システムの物理モデルを減らすことは最適化プロセスに組み込むことができ、それを加速することができる。
これらのモデルは実際のシステムの近似を提供することができ、それらの評価は極めて安価である。
安全はベイズ最適化のようなオンライン最適化手法にとって重要な基準である。
論文 参考訳(メタデータ) (2023-12-12T13:59:26Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - NoisyMix: Boosting Robustness by Combining Data Augmentations, Stability
Training, and Noise Injections [46.745755900939216]
モデルロバスト性とドメイン内精度の両方を改善するために,データ拡張と安定性トレーニングとノイズ注入を組み合わせたトレーニングスキームであるNoisyMixを導入する。
我々は、ImageNet-C、ImageNet-R、ImageNet-Pなど、さまざまなベンチマークデータセットに対して、NoisyMixの利点を実証する。
論文 参考訳(メタデータ) (2022-02-02T19:53:35Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。