論文の概要: Configurable Safety Tuning of Language Models with Synthetic Preference Data
- arxiv url: http://arxiv.org/abs/2404.00495v1
- Date: Sat, 30 Mar 2024 23:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:30:20.073308
- Title: Configurable Safety Tuning of Language Models with Synthetic Preference Data
- Title(参考訳): 合成選好データを用いた言語モデルの構成可能な安全チューニング
- Authors: Victor Gallego,
- Abstract要約: State-of-the-art language model fine-tuning techniqueは、事前に定義された振る舞いをモデルにハードコーディングすることで、ユーザー制御を制限する。
そこで我々は,DPOを合成選好データを用いて拡張する新しい手法であるSafety Tuningを提案する。
CSTはバニラDPOの制約を克服し、安全設定を指示するシステムを導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art language model fine-tuning techniques, such as Direct Preference Optimization (DPO), restrict user control by hard-coding predefined behaviors into the model. To address this, we propose a novel method, Configurable Safety Tuning (CST), that augments DPO using synthetic preference data to facilitate flexible safety configuration of LLMs at inference time. CST overcomes the constraints of vanilla DPO by introducing a system prompt specifying safety configurations, enabling LLM deployers to disable/enable safety preferences based on their need, just changing the system prompt. Our experimental evaluations indicate that CST successfully manages different safety configurations and retains the original functionality of LLMs, showing it is a robust method for configurable deployment. Data and models available at https://github.com/vicgalle/configurable-safety-tuning
- Abstract(参考訳): DPO(Direct Preference Optimization)のような最先端の言語モデル微調整技術は、事前に定義された振る舞いをモデルにハードコーディングすることでユーザ制御を制限する。
そこで本研究では,LLMのフレキシブルな安全性設定を容易にするために,合成選好データを用いてDPOを増強する新しい手法であるConfigurable Safety Tuning (CST)を提案する。
CSTは、バニラDPOの制約を克服するため、システムプロンプトに安全設定を指定することで、システムプロンプトを変更するだけで、LLMデプロイが必要に応じて安全設定を無効/可能にすることができる。
実験により、CSTは異なる安全設定をうまく管理し、LLMの本来の機能を維持できることが示され、構成可能な配置のための堅牢な方法であることが示された。
https://github.com/vicgalle/configurable-safety-tuningで利用可能なデータとモデル
関連論文リスト
- Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - A Fast, Performant, Secure Distributed Training Framework For Large
Language Model [8.547104574876887]
モデルスライシングに基づくセキュア分散LLMを提案する。
クライアント側とサーバ側の両方にTEE(Trusted Execution Environment)をデプロイします。
セキュア通信は、軽量暗号化により、TEEおよび一般的な環境で実行される。
論文 参考訳(メタデータ) (2024-01-18T08:33:09Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Secure Instruction and Data-Level Information Flow Tracking Model for RISC-V [0.0]
不正アクセス、障害注入、およびプライバシー侵害は、信頼できないアクターによる潜在的な脅威である。
本稿では,実行時セキュリティがシステム完全性を保護するために,IFT(Information Flow Tracking)技術を提案する。
本研究では,ハードウェアベース IFT 技術とゲートレベル IFT (GLIFT) 技術を統合したマルチレベル IFT モデルを提案する。
論文 参考訳(メタデータ) (2023-11-17T02:04:07Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z) - SMT-Based Safety Verification of Data-Aware Processes under Ontologies
(Extended Version) [71.12474112166767]
我々は、このスペクトルで最も調査されたモデルの1つ、すなわち単純なアーティファクトシステム(SAS)の変種を紹介する。
このDLは適切なモデル理論特性を享受し、後方到達性を適用可能なSASを定義することができ、対応する安全問題のPSPACEにおける決定可能性をもたらす。
論文 参考訳(メタデータ) (2021-08-27T15:04:11Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。