Fugu-MT 論文翻訳(概要): Configurable Safety Tuning of Language Models with Synthetic Preference Data

論文の概要: Configurable Safety Tuning of Language Models with Synthetic Preference Data

arxiv url: http://arxiv.org/abs/2404.00495v1
Date: Sat, 30 Mar 2024 23:28:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 03:30:20.073308
Title: Configurable Safety Tuning of Language Models with Synthetic Preference Data
Title（参考訳）: 合成選好データを用いた言語モデルの構成可能な安全チューニング
Authors: Victor Gallego,
Abstract要約: State-of-the-art language model fine-tuning techniqueは、事前に定義された振る舞いをモデルにハードコーディングすることで、ユーザー制御を制限する。そこで我々は,DPOを合成選好データを用いて拡張する新しい手法であるSafety Tuningを提案する。 CSTはバニラDPOの制約を克服し、安全設定を指示するシステムを導入している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art language model fine-tuning techniques, such as Direct Preference Optimization (DPO), restrict user control by hard-coding predefined behaviors into the model. To address this, we propose a novel method, Configurable Safety Tuning (CST), that augments DPO using synthetic preference data to facilitate flexible safety configuration of LLMs at inference time. CST overcomes the constraints of vanilla DPO by introducing a system prompt specifying safety configurations, enabling LLM deployers to disable/enable safety preferences based on their need, just changing the system prompt. Our experimental evaluations indicate that CST successfully manages different safety configurations and retains the original functionality of LLMs, showing it is a robust method for configurable deployment. Data and models available at https://github.com/vicgalle/configurable-safety-tuning
Abstract（参考訳）: DPO(Direct Preference Optimization)のような最先端の言語モデル微調整技術は、事前に定義された振る舞いをモデルにハードコーディングすることでユーザ制御を制限する。そこで本研究では,LLMのフレキシブルな安全性設定を容易にするために,合成選好データを用いてDPOを増強する新しい手法であるConfigurable Safety Tuning (CST)を提案する。 CSTは、バニラDPOの制約を克服するため、システムプロンプトに安全設定を指定することで、システムプロンプトを変更するだけで、LLMデプロイが必要に応じて安全設定を無効/可能にすることができる。実験により、CSTは異なる安全設定をうまく管理し、LLMの本来の機能を維持できることが示され、構成可能な配置のための堅牢な方法であることが示された。 https://github.com/vicgalle/configurable-safety-tuningで利用可能なデータとモデル

関連論文リスト

Configurable Preference Tuning with Rubric-Guided Synthetic Data [0.6526824510982799]
本稿では,言語モデルに明示的,人間解釈可能な指示に基づく行動調整機能を持たせるための新しい枠組みを提案する。トレーニングコード、生成されたデータセット、微調整されたモデルなど、いくつかの実験的な成果物がhttps://github.com/vicgalle/configurable-preference-tuningでリリースされている。
論文参考訳（メタデータ） (2025-06-13T12:17:38Z)
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。 SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-26T14:50:01Z)
LookAhead Tuning: Safer Language Models via Partial Answer Previews [38.7113305301502]
LookAhead Tuningは、微調整時のモデルの安全性の低下を軽減する。 2つの単純で低リソースで効果的なデータ駆動手法は、部分的な回答プレフィックスをプレビューすることでトレーニングデータを修正する。
論文参考訳（メタデータ） (2025-03-24T18:11:42Z)
SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文参考訳（メタデータ） (2024-12-13T18:59:52Z)
TRANSPOSE: Transitional Approaches for Spatially-Aware LFI Resilient FSM Encoding [2.236957801565796]
有限状態マシン(FSM)は、機密情報や特権CPU状態へのアクセスを含むシーケンシャル回路を規制する。レーザベースのフォールトインジェクション(LFI)は、個々のフリップフロップ(FF)値を変更することで、敵がチップのセキュリティを脅かすことができるようになってきている。
論文参考訳（メタデータ） (2024-11-05T04:18:47Z)
Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文参考訳（メタデータ） (2024-10-14T09:58:29Z)
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文参考訳（メタデータ） (2024-10-11T16:38:01Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
A Fast, Performant, Secure Distributed Training Framework For Large Language Model [8.547104574876887]
モデルスライシングに基づくセキュア分散LLMを提案する。クライアント側とサーバ側の両方にTEE(Trusted Execution Environment)をデプロイします。セキュア通信は、軽量暗号化により、TEEおよび一般的な環境で実行される。
論文参考訳（メタデータ） (2024-01-18T08:33:09Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)
Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文参考訳（メタデータ） (2023-10-01T23:27:14Z)
SMT-Based Safety Verification of Data-Aware Processes under Ontologies (Extended Version) [71.12474112166767]
我々は、このスペクトルで最も調査されたモデルの1つ、すなわち単純なアーティファクトシステム(SAS)の変種を紹介する。このDLは適切なモデル理論特性を享受し、後方到達性を適用可能なSASを定義することができ、対応する安全問題のPSPACEにおける決定可能性をもたらす。
論文参考訳（メタデータ） (2021-08-27T15:04:11Z)
Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文参考訳（メタデータ） (2021-06-03T16:45:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。