Fugu-MT 論文翻訳(概要): Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

論文の概要: Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.11020v2
Date: Sat, 19 Oct 2024 01:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.446514
Title: Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
Title（参考訳）: 強化学習を用いた大規模言語モデルの言語理解能力の向上
Authors: Bokai Hu, Sai Ashish Somayajula, Xin Pan, Zihan Huang, Pengtao Xie,
Abstract要約: 大規模言語モデル(LLM)はゼロショットプロンプトと少数ショットプロンプトを使用して自然言語生成に優れる。 BERTベースのようなエンコーダのみのモデルは、GLUEやSuperGLUEのようなベンチマークでLLMより優れている。本稿では,LLMのNLU能力を高めるために,SFTとPPOの2つのアプローチについて検討する。
参考スコア（独自算出の注目度）: 18.763247227949822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs), built on decoder-only transformers, excel in natural language generation and adapt to diverse tasks using zero-shot and few-shot prompting. However, these prompting methods often struggle on natural language understanding (NLU) tasks, where encoder-only models like BERT-base outperform LLMs on benchmarks like GLUE and SuperGLUE. This paper explores two approaches-supervised fine-tuning (SFT) and proximal policy optimization (PPO)-to enhance LLMs' NLU abilities. To reduce the cost of full-model fine-tuning, we integrate low-rank adaptation (LoRA) layers, limiting updates to these layers during both SFT and PPO. In SFT, task-specific prompts are concatenated with input queries and ground-truth labels, optimizing with next-token prediction. Despite this, LLMs still underperform compared to models like BERT-base on several NLU tasks. To close this gap, we apply PPO, a reinforcement learning technique that treats each token generation as an action and uses a reward function based on alignment with ground-truth answers. PPO then updates the model to maximize these rewards, aligning outputs with correct labels. Our experiments with LLAMA2-7B show that PPO improves performance, with a 6.3-point gain over SFT on GLUE. PPO exceeds zero-shot by 38.7 points and few-shot by 26.1 points on GLUE, while surpassing these by 28.8 and 28.5 points on SuperGLUE. Additionally, PPO outperforms BERT-large by 2.7 points on GLUE and 9.3 points on SuperGLUE. The improvements are consistent across models like Qwen2.5-7B and MPT-7B, highlighting PPO's robustness in enhancing LLMs' NLU capabilities.
Abstract（参考訳）: デコーダのみのトランスフォーマー上に構築された大規模言語モデル(LLM)は、自然言語生成に優れ、ゼロショットと少数ショットプロンプトを使用して多様なタスクに適応する。しかしながら、これらのプロンプト手法は、GLUEやSuperGLUEのようなベンチマーク上でBERTベースのようなエンコーダのみのモデルがLLMを上回り、自然言語理解(NLU)タスクに苦しむことが多い。本稿では,LLMのNLU能力を高めるために,SFTとPPOの2つのアプローチについて検討する。フルモデルファインチューニングのコストを削減するため、低ランク適応(LoRA)層を統合し、SFTとPPOの両方でこれらの層への更新を制限する。 SFTでは、タスク固有のプロンプトは入力クエリとグランドトルースラベルと連結され、次のトーケン予測に最適化される。にもかかわらず、LLMはいくつかのNLUタスクにおいてBERTベースのようなモデルに比べてまだ性能が劣っている。このギャップを埋めるために,各トークン生成をアクションとして扱う強化学習手法であるPPOを適用する。 PPOはモデルを更新し、これらの報酬を最大化し、出力を正しいラベルと整列させる。 LLAMA2-7Bを用いた実験により,PPOはGLUE上のSFTよりも6.3ポイント向上した。 PPOはゼロショットを38.7点、少数ショットを26.1点、スーパーGLUEを28.8点、28.5点を突破した。さらに、PPO は BERT-large を GLUE で 2.7 点、SuperGLUE で 9.3 点で上回っている。この改良はQwen2.5-7BやMPT-7Bのようなモデル間で一貫しており、LLMのNLU能力を向上するPPOの堅牢性を強調している。

関連論文リスト

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。 GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文参考訳（メタデータ） (2025-07-25T17:42:32Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
Catastrophic Forgetting in LLMs: A Comparative Analysis Across Language Tasks [0.0]
大規模言語モデル(LLM)は、かなり高度な自然言語処理(NLP)を持つ本研究では,主要なNLUタスクに対する各種オープンソースLLMの連続的な微調整について検討する。以上の結果から,Phi-3.5-miniのようなモデルでは,強い学習能力を維持しつつ,最小限の忘れを生じさせることが示唆された。
論文参考訳（メタデータ） (2025-04-01T23:06:55Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation [9.506166330956082]
最適化されたモデルと元のモデルとの差分を測定するためのSFTのトレーニング指標と、トレーニングの有効性を高めることができる損失関数MinorSFTを提案する。本稿では,DPO と MinorDPO の知見を得て,最適化モデルとオリジナルモデルとの差分を測定するための SFT のトレーニング指標と,トレーニングの有効性を高めることができる損失関数 MinorSFT を提案する。
論文参考訳（メタデータ） (2024-08-20T08:32:44Z)
Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding [11.470005425117371]
ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案する。提案手法は,RL中におけるニュアンス付きラベルセンシティブな意味的特徴を適切に捉え,自然言語の理解を向上させることを目的としている。 8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
論文参考訳（メタデータ） (2024-05-30T07:19:31Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文参考訳（メタデータ） (2024-04-18T08:49:38Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文参考訳（メタデータ） (2023-11-13T18:49:13Z)
L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文参考訳（メタデータ） (2023-11-11T06:59:50Z)
Black-Box Prompt Optimization: Aligning Large Language Models without Model Training [95.73262836039231]
大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。 LLMは人間の意図とよく一致しないことが多いため、追加の治療が必要である。この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
論文参考訳（メタデータ） (2023-11-07T17:31:50Z)
Improving Translation Faithfulness of Large Language Models via Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。 SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。 OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文参考訳（メタデータ） (2023-08-24T09:32:29Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Generating Training Data with Language Models: Towards Zero-Shot Language Understanding [35.92571138322246]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。 NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文参考訳（メタデータ） (2022-02-09T16:02:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。