論文の概要: MidPO: Dual Preference Optimization for Safety and Helpfulness in Large Language Models via a Mixture of Experts Framework
- arxiv url: http://arxiv.org/abs/2506.02460v1
- Date: Tue, 03 Jun 2025 05:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.293955
- Title: MidPO: Dual Preference Optimization for Safety and Helpfulness in Large Language Models via a Mixture of Experts Framework
- Title(参考訳): MidPO: エキスパートフレームワークの混合による大規模言語モデルにおける安全性とヘルプフルネスのための二重選好最適化
- Authors: Yupeng Qi, Ziyu Lyu, Min Yang, Yanlin Wang, Lu Bai, Lixin Cui,
- Abstract要約: そこで本稿では,安全性向上のためのテキストバウンサーラインMixture of Experts(MoE)フレームワークであるMidPOを提案する。
提案したMidPOは安全性と有用性の両方において最先端のアプローチを大幅に上回っていることを示すために,3つの一般的なデータセットについて定量的,定性的な実験を行った。
- 参考スコア(独自算出の注目度): 20.141606392837478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly applied across various domains, enhancing safety while maintaining the helpfulness of LLMs has become a critical challenge. Recent studies solve this problem through safety-constrained online preference optimization or safety-constrained offline preference optimization. However, the safety-constrained online methods often suffer from excessive safety, which might reduce helpfulness, while the safety-constrained offline methods perform poorly in adaptively balancing safety and helpfulness. To address these limitations, we propose MidPO, a \textbf{\underline{Mi}}xture of Experts (MoE) framework for safety-helpfulness \textbf{\underline{d}}ual \textbf{\underline{P}}reference \textbf{\underline{O}}ptimization. Firstly, MidPO devises single-preference enhanced direct preference optimization approach to transform the base model into two independent experts, termed safety and helpfulness experts, and fine-tunes the two independent experts for optimal safety or helpfulness performance. Secondly, to achieve an effective balance between safety and helpfulness, MidPO incorporates the two experts into the MoE framework and designs a dynamic routing mechanism to allocate contributions from each expert adaptively. We conduct quantitative and qualitative experiments on three popular datasets to demonstrate the proposed MidPO significantly outperforms state-of-the-art approaches in both safety and helpfulness. The code and models will be released.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々な領域にまたがって適用されていくにつれ、LLMの利便性を維持しつつ安全性を高めることが重要な課題となっている。
近年の研究では、安全制約付きオンライン嗜好最適化や、安全制約付きオフライン選好最適化を通じてこの問題を解決している。
しかし、安全性に制約のあるオンライン手法は過度な安全性に悩まされることが多く、安全に制約されたオフライン方式は安全性と利便性のバランスが良くない。
これらの制限に対処するため,安全性向上のためのフレームワークであるMidPOを提案する。
第一に、MidPOは、単一参照の強化された直接選好最適化アプローチを考案し、ベースモデルを2つの独立した専門家、すなわち、安全性と有用性の専門家、そして2つの独立した専門家を最適な安全性または有用性のパフォーマンスのために微調整する。
次に、安全性と利便性の効果的なバランスを達成するために、MidPOは2人の専門家をMoEフレームワークに組み込み、各専門家からの貢献を適応的に割り当てるための動的ルーティングメカニズムを設計する。
提案したMidPOは安全性と有用性の両方において最先端のアプローチを大幅に上回っていることを示すために,3つの一般的なデータセットについて定量的,定性的な実験を行った。
コードとモデルはリリースされる。
関連論文リスト
- ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization [36.609297811592185]
元Ante Reasoning Preference Optimization (ERPO)は、大規模言語モデルのための新しい安全アライメントフレームワークである。
提案手法は,まず,教師付き微調整(SFT)による推定モデルと,直接選好最適化(DPO)による安全性,有用性,効率性の向上,および,長さ制御された反復選好最適化戦略による推論遅延の緩和の3段階からなる。
論文 参考訳(メタデータ) (2025-04-03T16:07:38Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Enhancing LLM Safety via Constrained Direct Preference Optimization [8.22888921018027]
我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。
提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
論文 参考訳(メタデータ) (2024-03-04T20:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。