論文の概要: Configurable Safety Tuning of Language Models with Synthetic Preference Data
- arxiv url: http://arxiv.org/abs/2404.00495v1
- Date: Sat, 30 Mar 2024 23:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:30:20.073308
- Title: Configurable Safety Tuning of Language Models with Synthetic Preference Data
- Title(参考訳): 合成選好データを用いた言語モデルの構成可能な安全チューニング
- Authors: Victor Gallego,
- Abstract要約: State-of-the-art language model fine-tuning techniqueは、事前に定義された振る舞いをモデルにハードコーディングすることで、ユーザー制御を制限する。
そこで我々は,DPOを合成選好データを用いて拡張する新しい手法であるSafety Tuningを提案する。
CSTはバニラDPOの制約を克服し、安全設定を指示するシステムを導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art language model fine-tuning techniques, such as Direct Preference Optimization (DPO), restrict user control by hard-coding predefined behaviors into the model. To address this, we propose a novel method, Configurable Safety Tuning (CST), that augments DPO using synthetic preference data to facilitate flexible safety configuration of LLMs at inference time. CST overcomes the constraints of vanilla DPO by introducing a system prompt specifying safety configurations, enabling LLM deployers to disable/enable safety preferences based on their need, just changing the system prompt. Our experimental evaluations indicate that CST successfully manages different safety configurations and retains the original functionality of LLMs, showing it is a robust method for configurable deployment. Data and models available at https://github.com/vicgalle/configurable-safety-tuning
- Abstract(参考訳): DPO(Direct Preference Optimization)のような最先端の言語モデル微調整技術は、事前に定義された振る舞いをモデルにハードコーディングすることでユーザ制御を制限する。
そこで本研究では,LLMのフレキシブルな安全性設定を容易にするために,合成選好データを用いてDPOを増強する新しい手法であるConfigurable Safety Tuning (CST)を提案する。
CSTは、バニラDPOの制約を克服するため、システムプロンプトに安全設定を指定することで、システムプロンプトを変更するだけで、LLMデプロイが必要に応じて安全設定を無効/可能にすることができる。
実験により、CSTは異なる安全設定をうまく管理し、LLMの本来の機能を維持できることが示され、構成可能な配置のための堅牢な方法であることが示された。
https://github.com/vicgalle/configurable-safety-tuningで利用可能なデータとモデル
関連論文リスト
- TRANSPOSE: Transitional Approaches for Spatially-Aware LFI Resilient FSM Encoding [2.236957801565796]
有限状態マシン(FSM)は、機密情報や特権CPU状態へのアクセスを含むシーケンシャル回路を規制する。
レーザベースのフォールトインジェクション(LFI)は、個々のフリップフロップ(FF)値を変更することで、敵がチップのセキュリティを脅かすことができるようになってきている。
論文 参考訳(メタデータ) (2024-11-05T04:18:47Z) - Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。
既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。
そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文 参考訳(メタデータ) (2024-10-14T09:58:29Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - A Fast, Performant, Secure Distributed Training Framework For Large
Language Model [8.547104574876887]
モデルスライシングに基づくセキュア分散LLMを提案する。
クライアント側とサーバ側の両方にTEE(Trusted Execution Environment)をデプロイします。
セキュア通信は、軽量暗号化により、TEEおよび一般的な環境で実行される。
論文 参考訳(メタデータ) (2024-01-18T08:33:09Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z) - SMT-Based Safety Verification of Data-Aware Processes under Ontologies
(Extended Version) [71.12474112166767]
我々は、このスペクトルで最も調査されたモデルの1つ、すなわち単純なアーティファクトシステム(SAS)の変種を紹介する。
このDLは適切なモデル理論特性を享受し、後方到達性を適用可能なSASを定義することができ、対応する安全問題のPSPACEにおける決定可能性をもたらす。
論文 参考訳(メタデータ) (2021-08-27T15:04:11Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。