論文の概要: Safer-Instruct: Aligning Language Models with Automated Preference Data
- arxiv url: http://arxiv.org/abs/2311.08685v1
- Date: Wed, 15 Nov 2023 04:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:28:38.747706
- Title: Safer-Instruct: Aligning Language Models with Automated Preference Data
- Title(参考訳): Safer-Instruct: 自動推論データによる言語モデルの調整
- Authors: Taiwei Shi, Kai Chen, Jieyu Zhao
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、言語モデルにおけるモデルの安全性を高めるための重要な戦略である。
大規模嗜好データセットを半自動構築する新しいパイプラインであるSafer-Instructを提案する。
- 参考スコア(独自算出の注目度): 22.677667753534685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a vital strategy for
enhancing model safety in language models. However, annotating preference data
for RLHF is a resource-intensive and creativity-demanding process, while
automatic generation methods face limitations in data diversity and quality. In
response, we present Safer-Instruct, a novel pipeline for semi-automatically
constructing large-scale preference datasets. Our approach leverages reversed
instruction tuning, instruction induction, and expert model evaluation to
efficiently generate high-quality preference data without human annotators. We
evaluate Safer-Instruct using LLaMA for instruction induction and GPT-4 as an
expert model, generating approximately 10K preference samples. Finetuning an
Alpaca model on this dataset demonstrates improved harmlessness while
maintaining competitive performance on conversation and downstream tasks.
Safer-Instruct addresses the challenges in preference data acquisition,
advancing the development of safer and more responsible AI systems. Our code
and data are available at https://github.com/uscnlp-lime/safer-instruct
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、言語モデルにおけるモデルの安全性を高めるための重要な戦略である。
しかし、RLHFの好みデータの注釈付けはリソース集約的で創造性に富むプロセスであり、一方、自動生成手法はデータの多様性と品質の限界に直面している。
そこで本研究では,大規模嗜好データセットを半自動構築する新しいパイプラインであるSafer-Instructを提案する。
提案手法は,人間アノテータを使わずに高品質な嗜好データを生成するために,逆命令チューニング,命令誘導,エキスパートモデル評価を利用する。
LLaMAによる指導誘導とGPT-4をエキスパートモデルとし,約10Kの選好サンプルを生成する。
このデータセット上でAlpacaモデルを微調整すると、会話や下流タスクの競合性能を維持しながら、無害性が向上する。
Safer-Instructは、プライオリティデータ取得の課題に対処し、より安全で責任のあるAIシステムの開発を進める。
私たちのコードとデータはhttps://github.com/uscnlp-lime/safer-instructで利用可能です。
関連論文リスト
- Rule Based Rewards for Language Model Safety [14.444217964594108]
Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。
RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
論文 参考訳(メタデータ) (2024-11-02T02:22:21Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - PILoRA: Prototype Guided Incremental LoRA for Federated Class-Incremental Learning [41.984652077669104]
標準データセットによる実験結果から,本手法は最先端の手法よりも優れていたことが示唆された。
本手法は, 異なる設定, データの均一度において, 強靭性と優越性を示す。
論文 参考訳(メタデータ) (2024-01-04T06:46:19Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。