Fugu-MT 論文翻訳(概要): Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

論文の概要: Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.11020v4
Date: Tue, 03 Jun 2025 13:16:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:08.911409
Title: Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
Title（参考訳）: 強化学習を用いた大規模言語モデルの言語理解能力の向上
Authors: Bokai Hu, Sai Ashish Somayajula, Xin Pan, Pengtao Xie,
Abstract要約: Proximal Policy Optimization (PPO)は、大規模言語モデル(LLM)の機能を改善するためのフレームワークである。 PPOは監督された微調整よりも一貫して優れており、GLUEでは平均6.3ポイント向上している。本研究は,LLMを強化学習問題とみなすことで,新たなタスクに適応する上で有望な方向性を示すものである。
参考スコア（独自算出の注目度）: 20.13007387453759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction-fine-tuned large language models (LLMs) under 14B parameters continue to underperform on natural language understanding (NLU) tasks, often trailing smaller models like BERT-base on benchmarks such as GLUE and SuperGLUE. Motivated by the success of reinforcement learning in reasoning tasks (e.g., DeepSeek), we explore Proximal Policy Optimization (PPO) as a framework to improve the NLU capabilities of LLMs. We frame NLU as a reinforcement learning environment, treating token generation as a sequence of actions and optimizing for reward signals based on alignment with ground-truth labels. PPO consistently outperforms supervised fine-tuning, yielding an average improvement of 6.3 points on GLUE, and surpasses zero-shot and few-shot prompting by 38.7 and 26.1 points, respectively. Notably, PPO-tuned models outperform GPT-4o by over 4\% on average across sentiment and natural language inference tasks, including gains of 7.3\% on the Mental Health dataset and 10.9\% on SIGA-nli. This work highlights a promising direction for adapting LLMs to new tasks by reframing them as reinforcement learning problems, enabling learning through simple end-task rewards rather than extensive data curation.
Abstract（参考訳）: 14Bパラメータの命令細調整された大規模言語モデル(LLM)は、自然言語理解(NLU)タスクではパフォーマンスが低く、GLUEやSuperGLUEのようなベンチマークではBERTベースのような小さなモデルに追従することが多い。推論タスク(例えばDeepSeek)における強化学習の成功に触発された我々は,LLMのNLU能力向上のためのフレームワークとして,PPO(Pximal Policy Optimization)を探求する。我々は、NLUを強化学習環境とし、トークン生成をアクションのシーケンスとして扱い、グラウンドトルースラベルとのアライメントに基づく報酬信号の最適化を行う。 PPOは監督された微調整を一貫して上回り、GLUEでは平均6.3ポイント向上し、それぞれ38.7ポイントと26.1ポイントのゼロショットと少数ショットを上回っている。特に、PPOで調整されたモデルは、感情と自然言語の推論タスクの平均でGPT-4oを4倍に上回り、メンタルヘルスデータセットでは7.3倍、SIGA-nliでは10.9倍となっている。この研究は、LLMを強化学習問題とみなし、広範なデータキュレーションではなく、シンプルなエンドタスク報酬による学習を可能にすることで、新しいタスクに適応するための有望な方向性を強調している。

関連論文リスト

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。 GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文参考訳（メタデータ） (2025-07-25T17:42:32Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
Catastrophic Forgetting in LLMs: A Comparative Analysis Across Language Tasks [0.0]
大規模言語モデル(LLM)は、かなり高度な自然言語処理(NLP)を持つ本研究では,主要なNLUタスクに対する各種オープンソースLLMの連続的な微調整について検討する。以上の結果から,Phi-3.5-miniのようなモデルでは,強い学習能力を維持しつつ,最小限の忘れを生じさせることが示唆された。
論文参考訳（メタデータ） (2025-04-01T23:06:55Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation [9.506166330956082]
最適化されたモデルと元のモデルとの差分を測定するためのSFTのトレーニング指標と、トレーニングの有効性を高めることができる損失関数MinorSFTを提案する。本稿では,DPO と MinorDPO の知見を得て,最適化モデルとオリジナルモデルとの差分を測定するための SFT のトレーニング指標と,トレーニングの有効性を高めることができる損失関数 MinorSFT を提案する。
論文参考訳（メタデータ） (2024-08-20T08:32:44Z)
Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding [11.470005425117371]
ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案する。提案手法は,RL中におけるニュアンス付きラベルセンシティブな意味的特徴を適切に捉え,自然言語の理解を向上させることを目的としている。 8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
論文参考訳（メタデータ） (2024-05-30T07:19:31Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文参考訳（メタデータ） (2024-04-18T08:49:38Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文参考訳（メタデータ） (2023-11-13T18:49:13Z)
L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文参考訳（メタデータ） (2023-11-11T06:59:50Z)
Black-Box Prompt Optimization: Aligning Large Language Models without Model Training [95.73262836039231]
大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。 LLMは人間の意図とよく一致しないことが多いため、追加の治療が必要である。この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
論文参考訳（メタデータ） (2023-11-07T17:31:50Z)
Improving Translation Faithfulness of Large Language Models via Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。 SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。 OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文参考訳（メタデータ） (2023-08-24T09:32:29Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Generating Training Data with Language Models: Towards Zero-Shot Language Understanding [35.92571138322246]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。 NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文参考訳（メタデータ） (2022-02-09T16:02:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。