論文の概要: Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.11020v3
- Date: Tue, 22 Oct 2024 00:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:22.545127
- Title: Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
- Title(参考訳): 強化学習を用いた大規模言語モデルの言語理解能力の向上
- Authors: Bokai Hu, Sai Ashish Somayajula, Xin Pan, Zihan Huang, Pengtao Xie,
- Abstract要約: 大規模言語モデル(LLM)はゼロショットプロンプトと少数ショットプロンプトを使用して自然言語生成に優れる。
BERTベースのようなエンコーダのみのモデルは、GLUEやSuperGLUEのようなベンチマークでLLMより優れている。
本稿では,LLMのNLU能力を高めるために,SFTとPPOの2つのアプローチについて検討する。
- 参考スコア(独自算出の注目度): 18.763247227949822
- License:
- Abstract: Large language models (LLMs), built on decoder-only transformers, excel in natural language generation and adapt to diverse tasks using zero-shot and few-shot prompting. However, these prompting methods often struggle on natural language understanding (NLU) tasks, where encoder-only models like BERT-base outperform LLMs on benchmarks like GLUE and SuperGLUE. This paper explores two approaches-supervised fine-tuning (SFT) and proximal policy optimization (PPO)-to enhance LLMs' NLU abilities. To reduce the cost of full-model fine-tuning, we integrate low-rank adaptation (LoRA) layers, limiting updates to these layers during both SFT and PPO. In SFT, task-specific prompts are concatenated with input queries and ground-truth labels, optimizing with next-token prediction. Despite this, LLMs still underperform compared to models like BERT-base on several NLU tasks. To close this gap, we apply PPO, a reinforcement learning technique that treats each token generation as an action and uses a reward function based on alignment with ground-truth answers. PPO then updates the model to maximize these rewards, aligning outputs with correct labels. Our experiments with LLAMA2-7B show that PPO improves performance, with a 6.3-point gain over SFT on GLUE. PPO exceeds zero-shot by 38.7 points and few-shot by 26.1 points on GLUE, while surpassing these by 28.8 and 28.5 points on SuperGLUE. Additionally, PPO outperforms BERT-large by 2.7 points on GLUE and 9.3 points on SuperGLUE. The improvements are consistent across models like Qwen2.5-7B and MPT-7B, highlighting PPO's robustness in enhancing LLMs' NLU capabilities.
- Abstract(参考訳): デコーダのみのトランスフォーマー上に構築された大規模言語モデル(LLM)は、自然言語生成に優れ、ゼロショットと少数ショットプロンプトを使用して多様なタスクに適応する。
しかしながら、これらのプロンプト手法は、GLUEやSuperGLUEのようなベンチマーク上でBERTベースのようなエンコーダのみのモデルがLLMを上回り、自然言語理解(NLU)タスクに苦しむことが多い。
本稿では,LLMのNLU能力を高めるために,SFTとPPOの2つのアプローチについて検討する。
フルモデルファインチューニングのコストを削減するため、低ランク適応(LoRA)層を統合し、SFTとPPOの両方でこれらの層への更新を制限する。
SFTでは、タスク固有のプロンプトは入力クエリとグランドトルースラベルと連結され、次のトーケン予測に最適化される。
にもかかわらず、LLMはいくつかのNLUタスクにおいてBERTベースのようなモデルに比べてまだ性能が劣っている。
このギャップを埋めるために,各トークン生成をアクションとして扱う強化学習手法であるPPOを適用する。
PPOはモデルを更新し、これらの報酬を最大化し、出力を正しいラベルと整列させる。
LLAMA2-7Bを用いた実験により,PPOはGLUE上のSFTよりも6.3ポイント向上した。
PPOはゼロショットを38.7点、少数ショットを26.1点、スーパーGLUEを28.8点、28.5点を突破した。
さらに、PPO は BERT-large を GLUE で 2.7 点、SuperGLUE で 9.3 点で上回っている。
この改良はQwen2.5-7BやMPT-7Bのようなモデル間で一貫しており、LLMのNLU能力を向上するPPOの堅牢性を強調している。
関連論文リスト
- Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation [9.506166330956082]
最適化されたモデルと元のモデルとの差分を測定するためのSFTのトレーニング指標と、トレーニングの有効性を高めることができる損失関数MinorSFTを提案する。
本稿では,DPO と MinorDPO の知見を得て,最適化モデルとオリジナルモデルとの差分を測定するための SFT のトレーニング指標と,トレーニングの有効性を高めることができる損失関数 MinorSFT を提案する。
論文 参考訳(メタデータ) (2024-08-20T08:32:44Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Black-Box Prompt Optimization: Aligning Large Language Models without Model Training [95.73262836039231]
大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。
LLMは人間の意図とよく一致しないことが多いため、追加の治療が必要である。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
論文 参考訳(メタデータ) (2023-11-07T17:31:50Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Generating Training Data with Language Models: Towards Zero-Shot
Language Understanding [35.92571138322246]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。
提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2022-02-09T16:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。