論文の概要: Safer-Instruct: Aligning Language Models with Automated Preference Data
- arxiv url: http://arxiv.org/abs/2311.08685v3
- Date: Sun, 31 Mar 2024 22:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 15:15:12.065218
- Title: Safer-Instruct: Aligning Language Models with Automated Preference Data
- Title(参考訳): Safer-Instruct: 自動推論データによる言語モデルの調整
- Authors: Taiwei Shi, Kai Chen, Jieyu Zhao,
- Abstract要約: 人間のフィードバックからの強化学習は、言語モデルにおけるモデル能力を高めるための重要な戦略である。
大規模嗜好データを自動的に構築する新しいパイプラインであるSafer-Instructを提案する。
提案手法は, 高精度な選好データを生成するために, 逆命令チューニング, 命令誘導, エキスパートモデル評価を利用する。
- 参考スコア(独自算出の注目度): 20.177660013450176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a vital strategy for enhancing model capability in language models. However, annotating preference data for RLHF is a resource-intensive and creativity-demanding process, while existing automatic generation methods face limitations in data diversity and quality. In response, we present Safer-Instruct, a novel pipeline for automatically constructing large-scale preference data. Our approach leverages reversed instruction tuning, instruction induction, and expert model evaluation to efficiently generate high-quality preference data without human annotators. To verify the effectiveness of Safer-Instruct, we apply the pipeline to construct a safety preference dataset as a case study. Finetuning an Alpaca model on this synthetic dataset not only demonstrates improved harmlessness but also outperforms models fine-tuned on human-annotated safety preference data, all the while maintaining a competitive edge in downstream tasks. Importantly, our Safer-Instruct framework is versatile and can be applied to generate preference data across various domains, extending its utility beyond safety preferences. It addresses the challenges in preference data acquisition and advances the development of more capable and responsible AI systems. For dataset and code implementation, see https://github.com/uscnlp-lime/safer-instruct
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、言語モデルにおけるモデル能力を高めるための重要な戦略である。
しかし、RLHFの好みデータの注釈付けはリソース集約的でクリエイティビティを要求するプロセスであり、既存の自動生成手法はデータの多様性と品質の制限に直面している。
そこで本研究では,大規模嗜好データを自動的に構築する新しいパイプラインであるSafer-Instructを提案する。
提案手法は,人間アノテータを使わずに高品質な嗜好データを効率よく生成するために,逆命令チューニング,命令誘導,エキスパートモデル評価を利用する。
サファーインストラクトの有効性を検証するために,安全選好データセットの構築にパイプラインを適用した。
この合成データセット上でAlpacaモデルを微調整すると、無害性が向上するだけでなく、人間の注釈付き安全嗜好データに基づいて微調整されたモデルよりも優れ、下流タスクにおける競争力のあるエッジを維持している。
重要なことは、Salfer-Instructフレームワークは汎用的であり、さまざまなドメインにまたがる嗜好データを生成するために適用でき、そのユーティリティは安全性の選好を超えて拡張されます。
好みのデータ取得の課題に対処し、より有能で責任のあるAIシステムの開発を進める。
データセットとコードの実装については、https://github.com/uscnlp-lime/safer-instructを参照してください。
関連論文リスト
- Detecting and Filtering Unsafe Training Data via Data Attribution [10.111622301509362]
大規模言語モデル(LLM)は、安全でないトレーニングデータに対して脆弱である。
安全でないトレーニングデータの検出とフィルタリングにデータ属性を活用するDABUFを提案する。
我々は、ジェイルブレイク訓練データのフィルタリングと、性別バイアスの識別と緩和の2つの異なるタスクのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2025-02-17T03:50:58Z) - Rule Based Rewards for Language Model Safety [14.444217964594108]
Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。
RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
論文 参考訳(メタデータ) (2024-11-02T02:22:21Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - PILoRA: Prototype Guided Incremental LoRA for Federated Class-Incremental Learning [41.984652077669104]
標準データセットによる実験結果から,本手法は最先端の手法よりも優れていたことが示唆された。
本手法は, 異なる設定, データの均一度において, 強靭性と優越性を示す。
論文 参考訳(メタデータ) (2024-01-04T06:46:19Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。