論文の概要: Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents
- arxiv url: http://arxiv.org/abs/2405.12900v1
- Date: Tue, 21 May 2024 16:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:50:33.562515
- Title: Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents
- Title(参考訳): 敵対的DPO: 対話エージェントのコヒーレンスと伝播性に最小限の影響で毒性を低下させる有害なデータ
- Authors: San Kim, Gary Geunbae Lee,
- Abstract要約: 本研究では,ADPO(Adversarial DPO)と呼ばれる,DPO(Direct preference Optimization)の改善という,革新的なトレーニングアルゴリズムを提案する。
ADPOアルゴリズムは、より高い確率分布を望ましい応答に割り当て、低い分布を安全でない応答に割り当てるようにモデルを訓練するように設計されている。
我々はADPOが性能劣化を最小限に抑えながら、有害な会話に対するモデルのレジリエンスを高めることを実証した。
- 参考スコア(独自算出の注目度): 5.030641333638739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in open-domain dialogue systems have been propelled by the emergence of high-quality large language models (LLMs) and various effective training methodologies. Nevertheless, the presence of toxicity within these models presents a significant challenge that can potentially diminish the user experience. In this study, we introduce an innovative training algorithm, an improvement upon direct preference optimization (DPO), called adversarial DPO (ADPO). The ADPO algorithm is designed to train models to assign higher probability distributions to preferred responses and lower distributions to unsafe responses, which are self-generated using the toxic control token. We demonstrate that ADPO enhances the model's resilience against harmful conversations while minimizing performance degradation. Furthermore, we illustrate that ADPO offers a more stable training procedure compared to the traditional DPO. To the best of our knowledge, this is the first adaptation of the DPO algorithm that directly incorporates harmful data into the generative model, thereby reducing the need to artificially create safe dialogue data.
- Abstract(参考訳): オープンドメイン対話システムの最近の進歩は、高品質な大規模言語モデル(LLM)の出現と、様々な効果的な訓練手法によって促進されている。
それでも、これらのモデルに毒性が存在することは、ユーザエクスペリエンスを低下させる可能性がある重要な課題を示します。
そこで本研究では,ADPO(Adversarial DPO)と呼ばれる,DPO(Direct preference Optimization)の改良という,革新的なトレーニングアルゴリズムを提案する。
ADPOアルゴリズムは、有害な制御トークンを用いて自己生成される安全でない応答に対して、より高い確率分布を好ましい応答に割り当て、低い分布を低い確率分布に割り当てるようにモデルを訓練するように設計されている。
我々はADPOが性能劣化を最小限に抑えながら、有害な会話に対するモデルのレジリエンスを高めることを実証した。
さらに,ADPOは従来のDPOと比較して,より安定したトレーニング手順を提供することを示す。
我々の知る限り、これは有害データを生成モデルに直接組み込むDPOアルゴリズムの最初の適応であり、それによって安全な対話データを作成する必要がなくなる。
関連論文リスト
- The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - New Desiderata for Direct Preference Optimization [19.324743346476417]
我々は,既存のDPO手法が事前学習した基準モデルと,人間の嗜好の実証的尺度とを補間する能力において,未解決の欠点を浮き彫りにする新たな評価基準を導入する。
我々の洞察は、これらの制限を確実に緩和する代替のDPOライクな損失を動機付けます。
論文 参考訳(メタデータ) (2024-07-12T07:52:32Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Mallows-DPO: Fine-Tune Your LLM with Preference Dispersions [9.697663437292848]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習を改善するための一般的なアプローチとして現れている。
Mallows の選好ランク理論に触発されて,新しいアプローチである Mallows-DPO を開発した。
このアプローチの際立った特徴は、人選好のプロンプトへの分散を反映する分散指標である。
論文 参考訳(メタデータ) (2024-05-23T18:01:11Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T21:01:08Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。