Fugu-MT 論文翻訳(概要): The Wisdom of Hindsight Makes Language Models Better Instruction Followers

論文の概要: The Wisdom of Hindsight Makes Language Models Better Instruction Followers

arxiv url: http://arxiv.org/abs/2302.05206v1
Date: Fri, 10 Feb 2023 12:16:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-13 15:53:24.086396
Title: The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Title（参考訳）: Hindsightの知恵は、言語モデルを改善する
Authors: Tianjun Zhang, Fangchen Liu, Justin Wong, Pieter Abbeel, Joseph E. Gonzalez
Abstract要約: 強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
参考スコア（独自算出の注目度）: 84.9120606803906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demonstrates impressive performance on the GPT series models. However, the underlying Reinforcement Learning (RL) algorithm is complex and requires an additional training pipeline for reward and value networks. In this paper, we consider an alternative approach: converting feedback to instruction by relabeling the original one and training the model for better alignment in a supervised manner. Such an algorithm doesn't require any additional parameters except for the original language model and maximally reuses the pretraining pipeline. To achieve this, we formulate instruction alignment problem for language models as a goal-reaching problem in decision making. We propose Hindsight Instruction Relabeling (HIR), a novel algorithm for aligning language models with instructions. The resulting two-stage algorithm shed light to a family of reward-free approaches that utilize the hindsightly relabeled instructions based on feedback. We evaluate the performance of HIR extensively on 12 challenging BigBench reasoning tasks and show that HIR outperforms the baseline algorithms and is comparable to or even surpasses supervised finetuning.
Abstract（参考訳）: 強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功した。いわゆるReinforcement Learning with Human Feedback(RLHF)アルゴリズムは、GPTシリーズモデルで素晴らしいパフォーマンスを示す。しかし、基盤となる強化学習(RL)アルゴリズムは複雑で、報酬と価値のネットワークのための追加のトレーニングパイプラインが必要である。本稿では,フィードバックを命令に変換する手法として,元来のフィードバックをリラベルし,教師ありの方法でモデルを訓練する手法を提案する。このようなアルゴリズムは、元の言語モデルを除いて追加のパラメータを必要とせず、事前トレーニングパイプラインを最大限に再利用する。これを実現するために,意思決定における目標到達問題として,言語モデルの指示アライメント問題を定式化する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。その結果得られた2段階のアルゴリズムは、フィードバックに基づいて、後から許容される命令を利用する報酬のないアプローチの族に光を当てた。我々は,12の課題であるBigBench推論タスクにおいて,HIRの性能を広範囲に評価し,HIRがベースラインアルゴリズムより優れており,教師付き微調整に匹敵する,あるいは超越していることを示す。

関連論文リスト

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [3.30671592417223]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-03T16:16:35Z)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文参考訳（メタデータ） (2024-12-16T09:47:43Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。 ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文参考訳（メタデータ） (2024-06-24T15:51:30Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Fine-tune Language Models to Approximate Unbiased In-context Learning [8.609157988755896]
RICL(Reweighted In-context Learning)と呼ばれる再重み付きアルゴリズムを導入する。このアルゴリズムは、各入力出力サンプルの最適な重みを決定するために、バイアスのない検証セットを使用して言語モデルを微調整する。また、LARICLと呼ばれる線形最適重み近似アルゴリズムである、低コスト再重み付きアルゴリズムも導入する。
論文参考訳（メタデータ） (2023-10-05T06:16:01Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。