論文の概要: The Wisdom of Hindsight Makes Language Models Better Instruction
Followers
- arxiv url: http://arxiv.org/abs/2302.05206v1
- Date: Fri, 10 Feb 2023 12:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 15:53:24.086396
- Title: The Wisdom of Hindsight Makes Language Models Better Instruction
Followers
- Title(参考訳): Hindsightの知恵は、言語モデルを改善する
- Authors: Tianjun Zhang, Fangchen Liu, Justin Wong, Pieter Abbeel, Joseph E.
Gonzalez
- Abstract要約: 強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
- 参考スコア(独自算出の注目度): 84.9120606803906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has seen wide success in finetuning large language
models to better align with instructions via human feedback. The so-called
algorithm, Reinforcement Learning with Human Feedback (RLHF) demonstrates
impressive performance on the GPT series models. However, the underlying
Reinforcement Learning (RL) algorithm is complex and requires an additional
training pipeline for reward and value networks. In this paper, we consider an
alternative approach: converting feedback to instruction by relabeling the
original one and training the model for better alignment in a supervised
manner. Such an algorithm doesn't require any additional parameters except for
the original language model and maximally reuses the pretraining pipeline. To
achieve this, we formulate instruction alignment problem for language models as
a goal-reaching problem in decision making. We propose Hindsight Instruction
Relabeling (HIR), a novel algorithm for aligning language models with
instructions. The resulting two-stage algorithm shed light to a family of
reward-free approaches that utilize the hindsightly relabeled instructions
based on feedback. We evaluate the performance of HIR extensively on 12
challenging BigBench reasoning tasks and show that HIR outperforms the baseline
algorithms and is comparable to or even surpasses supervised finetuning.
- Abstract(参考訳): 強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功した。
いわゆるReinforcement Learning with Human Feedback(RLHF)アルゴリズムは、GPTシリーズモデルで素晴らしいパフォーマンスを示す。
しかし、基盤となる強化学習(RL)アルゴリズムは複雑で、報酬と価値のネットワークのための追加のトレーニングパイプラインが必要である。
本稿では,フィードバックを命令に変換する手法として,元来のフィードバックをリラベルし,教師ありの方法でモデルを訓練する手法を提案する。
このようなアルゴリズムは、元の言語モデルを除いて追加のパラメータを必要とせず、事前トレーニングパイプラインを最大限に再利用する。
これを実現するために,意思決定における目標到達問題として,言語モデルの指示アライメント問題を定式化する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
その結果得られた2段階のアルゴリズムは、フィードバックに基づいて、後から許容される命令を利用する報酬のないアプローチの族に光を当てた。
我々は,12の課題であるBigBench推論タスクにおいて,HIRの性能を広範囲に評価し,HIRがベースラインアルゴリズムより優れており,教師付き微調整に匹敵する,あるいは超越していることを示す。
関連論文リスト
- Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。
ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文 参考訳(メタデータ) (2024-06-24T15:51:30Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Fine-tune Language Models to Approximate Unbiased In-context Learning [8.609157988755896]
RICL(Reweighted In-context Learning)と呼ばれる再重み付きアルゴリズムを導入する。
このアルゴリズムは、各入力出力サンプルの最適な重みを決定するために、バイアスのない検証セットを使用して言語モデルを微調整する。
また、LARICLと呼ばれる線形最適重み近似アルゴリズムである、低コスト再重み付きアルゴリズムも導入する。
論文 参考訳(メタデータ) (2023-10-05T06:16:01Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。