論文の概要: RLCD: Reinforcement Learning from Contrast Distillation for Language
Model Alignment
- arxiv url: http://arxiv.org/abs/2307.12950v2
- Date: Fri, 18 Aug 2023 22:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 22:45:11.133200
- Title: RLCD: Reinforcement Learning from Contrast Distillation for Language
Model Alignment
- Title(参考訳): RLCD:言語モデルアライメントのためのコントラスト蒸留による強化学習
- Authors: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
- Abstract要約: コントラスト蒸留による強化学習(Reinforcement Learning from Contrast Distillation, RLCD)は、人間のフィードバックを使わずに自然言語の原則に従うために言語モデルを整列させる手法である。
RLCDは、高品質と低品質の両方の例を含むシミュレーションされた選好ペアを使用して、選好モデルを訓練する。
次に、嗜好モデルを用いて、強化学習によるベースアンアライメント言語モデルを改善する。
- 参考スコア(独自算出の注目度): 128.69765018161146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Reinforcement Learning from Contrast Distillation (RLCD), a method
for aligning language models to follow natural language principles without
using human feedback. RLCD trains a preference model using simulated preference
pairs that contain both a high-quality and low-quality example, generated using
contrasting positive and negative prompts. The preference model is then used to
improve a base unaligned language model via reinforcement learning.
Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context
distillation (Huang et al., 2022) baselines across three diverse alignment
tasks--harmlessness, helpfulness, and story outline generation--and on both 7B
and 30B model scales for preference data simulation.
- Abstract(参考訳): 人間のフィードバックを使わずに自然言語の原則に従うために言語モデルを整合させる手法であるReinforcement Learning from Contrast Distillation (RLCD)を提案する。
RLCDは、比較正と負のプロンプトを用いて生成された高品質と低品質の両方の例を含むシミュレーションされた選好ペアを使用して、選好モデルを訓練する。
選好モデルは強化学習を通じて基本不整合言語モデルを改善するために使われる。
RLCD は RLAIF (Bai et al., 2022b) とコンテキスト蒸留 (Huang et al., 2022) を3つの多彩なアライメントタスク – 無害性, 有用性, ストーリーアウトライン生成 – で上回り, および 7B モデルと 30B モデルの両方で優先データシミュレーションを行う。
関連論文リスト
- Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。
すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。
我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文 参考訳(メタデータ) (2024-06-11T14:24:00Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - CycleAlign: Iterative Distillation from Black-box LLM to White-box
Models for Better Human Alignment [25.15541878967559]
大規模コーパスで訓練された言語モデルは、しばしば有害な、有害な、あるいは人間の嗜好に反してコンテンツを生成する。
本稿では,パラメータ可視LLM(ブラックボックス)からパラメータ可視モデル(ホワイトボックス)へ反復的にアライメント機能を蒸留するためにCycleAlignを導入する。
我々はCycleAlignが既存の手法をはるかに上回り、人間の価値に合わせて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-10-25T01:05:03Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。