論文の概要: The Wisdom of Hindsight Makes Language Models Better Instruction
Followers
- arxiv url: http://arxiv.org/abs/2302.05206v1
- Date: Fri, 10 Feb 2023 12:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 15:53:24.086396
- Title: The Wisdom of Hindsight Makes Language Models Better Instruction
Followers
- Title(参考訳): Hindsightの知恵は、言語モデルを改善する
- Authors: Tianjun Zhang, Fangchen Liu, Justin Wong, Pieter Abbeel, Joseph E.
Gonzalez
- Abstract要約: 強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
- 参考スコア(独自算出の注目度): 84.9120606803906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has seen wide success in finetuning large language
models to better align with instructions via human feedback. The so-called
algorithm, Reinforcement Learning with Human Feedback (RLHF) demonstrates
impressive performance on the GPT series models. However, the underlying
Reinforcement Learning (RL) algorithm is complex and requires an additional
training pipeline for reward and value networks. In this paper, we consider an
alternative approach: converting feedback to instruction by relabeling the
original one and training the model for better alignment in a supervised
manner. Such an algorithm doesn't require any additional parameters except for
the original language model and maximally reuses the pretraining pipeline. To
achieve this, we formulate instruction alignment problem for language models as
a goal-reaching problem in decision making. We propose Hindsight Instruction
Relabeling (HIR), a novel algorithm for aligning language models with
instructions. The resulting two-stage algorithm shed light to a family of
reward-free approaches that utilize the hindsightly relabeled instructions
based on feedback. We evaluate the performance of HIR extensively on 12
challenging BigBench reasoning tasks and show that HIR outperforms the baseline
algorithms and is comparable to or even surpasses supervised finetuning.
- Abstract(参考訳): 強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功した。
いわゆるReinforcement Learning with Human Feedback(RLHF)アルゴリズムは、GPTシリーズモデルで素晴らしいパフォーマンスを示す。
しかし、基盤となる強化学習(RL)アルゴリズムは複雑で、報酬と価値のネットワークのための追加のトレーニングパイプラインが必要である。
本稿では,フィードバックを命令に変換する手法として,元来のフィードバックをリラベルし,教師ありの方法でモデルを訓練する手法を提案する。
このようなアルゴリズムは、元の言語モデルを除いて追加のパラメータを必要とせず、事前トレーニングパイプラインを最大限に再利用する。
これを実現するために,意思決定における目標到達問題として,言語モデルの指示アライメント問題を定式化する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
その結果得られた2段階のアルゴリズムは、フィードバックに基づいて、後から許容される命令を利用する報酬のないアプローチの族に光を当てた。
我々は,12の課題であるBigBench推論タスクにおいて,HIRの性能を広範囲に評価し,HIRがベースラインアルゴリズムより優れており,教師付き微調整に匹敵する,あるいは超越していることを示す。
関連論文リスト
- Improving Large Language Models via Fine-grained Reinforcement Learning
with Minimum Editing Constraint [109.77895659878442]
強化学習(RL)は、大規模言語モデルの訓練に広く用いられている。
生成モデルを報酬モデルとして組み込んだ新しいRL法 textbfRLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Fine-tune Language Models to Approximate Unbiased In-context Learning [8.609157988755896]
RICL(Reweighted In-context Learning)と呼ばれる再重み付きアルゴリズムを導入する。
このアルゴリズムは、各入力出力サンプルの最適な重みを決定するために、バイアスのない検証セットを使用して言語モデルを微調整する。
また、LARICLと呼ばれる線形最適重み近似アルゴリズムである、低コスト再重み付きアルゴリズムも導入する。
論文 参考訳(メタデータ) (2023-10-05T06:16:01Z) - Inverse Preference Learning: Preference-based RL without a Reward
Function [34.31087304327075]
Inverse Preference Learning (IPL) は、オフラインの嗜好データから学習するために特別に設計された。
我々の重要な洞察は、固定されたポリシーに対して、$Q$関数は報酬関数に関する全ての情報をエンコードし、効果的に交換可能であることである。
IPLは、トランスフォーマーベースおよび非マルコフ報酬関数を利用するより複雑なアプローチと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-05-24T17:14:10Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文 参考訳(メタデータ) (2020-07-27T12:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。