Fugu-MT 論文翻訳(概要): Safer-Instruct: Aligning Language Models with Automated Preference Data

論文の概要: Safer-Instruct: Aligning Language Models with Automated Preference Data

arxiv url: http://arxiv.org/abs/2311.08685v1
Date: Wed, 15 Nov 2023 04:22:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 17:28:38.747706
Title: Safer-Instruct: Aligning Language Models with Automated Preference Data
Title（参考訳）: Safer-Instruct: 自動推論データによる言語モデルの調整
Authors: Taiwei Shi, Kai Chen, Jieyu Zhao
Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、言語モデルにおけるモデルの安全性を高めるための重要な戦略である。大規模嗜好データセットを半自動構築する新しいパイプラインであるSafer-Instructを提案する。
参考スコア（独自算出の注目度）: 22.677667753534685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) is a vital strategy for enhancing model safety in language models. However, annotating preference data for RLHF is a resource-intensive and creativity-demanding process, while automatic generation methods face limitations in data diversity and quality. In response, we present Safer-Instruct, a novel pipeline for semi-automatically constructing large-scale preference datasets. Our approach leverages reversed instruction tuning, instruction induction, and expert model evaluation to efficiently generate high-quality preference data without human annotators. We evaluate Safer-Instruct using LLaMA for instruction induction and GPT-4 as an expert model, generating approximately 10K preference samples. Finetuning an Alpaca model on this dataset demonstrates improved harmlessness while maintaining competitive performance on conversation and downstream tasks. Safer-Instruct addresses the challenges in preference data acquisition, advancing the development of safer and more responsible AI systems. Our code and data are available at https://github.com/uscnlp-lime/safer-instruct
Abstract（参考訳）: RLHF(Reinforcement Learning from Human Feedback)は、言語モデルにおけるモデルの安全性を高めるための重要な戦略である。しかし、RLHFの好みデータの注釈付けはリソース集約的で創造性に富むプロセスであり、一方、自動生成手法はデータの多様性と品質の限界に直面している。そこで本研究では,大規模嗜好データセットを半自動構築する新しいパイプラインであるSafer-Instructを提案する。提案手法は,人間アノテータを使わずに高品質な嗜好データを生成するために,逆命令チューニング,命令誘導,エキスパートモデル評価を利用する。 LLaMAによる指導誘導とGPT-4をエキスパートモデルとし,約10Kの選好サンプルを生成する。このデータセット上でAlpacaモデルを微調整すると、会話や下流タスクの競合性能を維持しながら、無害性が向上する。 Safer-Instructは、プライオリティデータ取得の課題に対処し、より安全で責任のあるAIシステムの開発を進める。私たちのコードとデータはhttps://github.com/uscnlp-lime/safer-instructで利用可能です。

関連論文リスト

SAFER: Probing Safety in Reward Models with Sparse Autoencoder [15.804171763844323]
拡張リワードモデル(textbfSAFER)のためのスパースオートエンコーダを提案する。我々は、報酬モデルアクティベーションにおける人間解釈可能な特徴を明らかにし、安全関連意思決定の洞察を可能にする。実験の結果、SAFERは最小限のデータ修正で精度を低下させるか、安全アライメントを強化することができる。
論文参考訳（メタデータ） (2025-07-01T11:04:03Z)
Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning [2.657867981416885]
機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。モデルがスケールするにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、より効率的にデータを活用する必要がある。この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
論文参考訳（メタデータ） (2025-06-11T12:48:45Z)
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
Detecting and Filtering Unsafe Training Data via Data Attribution [10.111622301509362]
大規模言語モデル(LLM)は、安全でないトレーニングデータに対して脆弱である。安全でないトレーニングデータの検出とフィルタリングにデータ属性を活用するDABUFを提案する。我々は、ジェイルブレイク訓練データのフィルタリングと、性別バイアスの識別と緩和の2つの異なるタスクのパフォーマンスを評価する。
論文参考訳（メタデータ） (2025-02-17T03:50:58Z)
Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Rule Based Rewards for Language Model Safety [14.444217964594108]
Rule Based Rewards (RBR) は、望ましい行動や望ましくない行動にルールの集合を使用する。 RBRは効果的な訓練方法であり、F1スコアは97.1であり、人間フィードバックベースラインは91.7である。
論文参考訳（メタデータ） (2024-11-02T02:22:21Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。 OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文参考訳（メタデータ） (2024-05-23T02:13:34Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
PILoRA: Prototype Guided Incremental LoRA for Federated Class-Incremental Learning [41.984652077669104]
標準データセットによる実験結果から,本手法は最先端の手法よりも優れていたことが示唆された。本手法は, 異なる設定, データの均一度において, 強靭性と優越性を示す。
論文参考訳（メタデータ） (2024-01-04T06:46:19Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Just Fine-tune Twice: Selective Differential Privacy for Large Language Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文参考訳（メタデータ） (2022-04-15T22:36:55Z)
A Hybrid Framework for Sequential Data Prediction with End-to-End Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文参考訳（メタデータ） (2022-03-25T17:13:08Z)
Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文参考訳（メタデータ） (2022-01-05T02:46:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。