Fugu-MT 論文翻訳(概要): Token-Efficient RL for LLM Reasoning

論文の概要: Token-Efficient RL for LLM Reasoning

arxiv url: http://arxiv.org/abs/2504.20834v3
Date: Fri, 09 May 2025 23:50:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 14:13:13.008929
Title: Token-Efficient RL for LLM Reasoning
Title（参考訳）: LLM共振用トーケン高効率RL
Authors: Alan Lee, Harry Tong,
Abstract要約: 本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
参考スコア（独自算出の注目度）: 0.02488650627593658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose reinforcement learning (RL) strategies tailored for reasoning in large language models (LLMs) under strict memory and compute limits, with a particular focus on compatibility with LoRA fine-tuning. Building on early policy gradient methods with baseline subtraction, we design critic-free methods that operate on a small, informative subset of output tokens to reduce memory usage and stabilize training. We introduce S-GRPO, a stochastic variant of Group Relative Policy Optimization, and T-SPMO, a token-level prefix matching approach for fine-grained credit assignment. Applied to Qwen2-1.5B, our methods raise accuracy on the SVAMP benchmark from 46% to over 70% and show strong performance on multi-digit multiplication. Surprisingly, full-token GRPO under LoRA fails to improve over the base model, suggesting that selective token-level optimization may act as an implicit regularizer in low-parameter training regimes.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)において,厳密なメモリと計算限界下での推論に適した強化学習(RL)戦略を提案する。ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,メモリ使用率の低減とトレーニングの安定化を図るために,出力トークンの小さな情報サブセット上で動作可能な批判フリーな手法を設計する。本稿では,グループ相対政策最適化の確率的変種であるS-GRPOと,トークンレベルプレフィックスマッチング手法であるT-SPMOを紹介する。 Qwen2-1.5Bの適用により,SVAMPベンチマークの精度は46%から70%以上に向上し,マルチ桁乗算の性能が向上した。驚いたことに、LoRAの下での完全なGRPOはベースモデルよりも改善に失敗し、選択トークンレベルの最適化は低パラメータのトレーニングシステムにおいて暗黙の正則化として機能する可能性があることを示唆している。

関連論文リスト

Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
Reinforcement Learning with Promising Tokens for Large Language Models [11.420715885411925]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の整合と最適化のための重要なパラダイムとして登場した。本稿では,トークン生成から戦略的意思決定を分離することで行動空間の問題を軽減するフレームワークであるReinforcement Learning with Promising Tokens(R)を紹介する。
論文参考訳（メタデータ） (2026-02-03T07:08:06Z)
PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization [15.965340493880701]
我々は、結果の信頼性とプロセスレベルのガイダンスを、批判のないフレームワークで組み合わせたプロセス相対政策最適化(PRPO)を導入する。 PRPOは意味的手がかりに基づいて推論シーケンスを分割し、PRMスコアをトークンレベルの利点に正規化し、それらの分布を結果の利点と整合させる。 MATH500では、PRPOはQwen2.5-Math-1.5Bの精度を61.2%から64.4%に改善した。
論文参考訳（メタデータ） (2026-01-12T04:04:43Z)
Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T13:05:32Z)
Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-10-13T17:47:50Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。 Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。 GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文参考訳（メタデータ） (2025-05-26T12:23:26Z)
Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文参考訳（メタデータ） (2025-05-21T09:41:53Z)
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文参考訳（メタデータ） (2025-05-12T13:09:49Z)
LoRA-Based Continual Learning with Constraints on Critical Parameter Changes [7.634417409656999]
LoRAベースの連続学習は、下流の連続学習タスクで事前学習されたモデルを活用するための有望な道である。本研究では,視力変換器(ViT)における最重要パラメータ行列の凍結について,事前タスクの学習に先立って提案する。提案手法は,いくつかのよく知られた連続学習ベンチマークにおいて,最先端(SOTA)性能を実現することを示唆している。
論文参考訳（メタデータ） (2025-04-18T02:08:19Z)
SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文参考訳（メタデータ） (2024-12-03T07:25:30Z)
Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。 Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文参考訳（メタデータ） (2024-10-25T17:07:13Z)
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-20T15:48:32Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
BiLoRA: A Bi-level Optimization Framework for Overfitting-Resilient Low-Rank Adaptation of Large Pre-trained Models [34.1111413429869]
BiLoRA はバイレベル最適化 (BLO) に基づく過度に適合する微調整手法である自然言語理解と生成タスクをカバーする10のデータセットでテストしました。
論文参考訳（メタデータ） (2024-03-19T14:11:20Z)
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-01-08T14:26:49Z)
Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-20T11:56:25Z)
SHOT: Suppressing the Hessian along the Optimization Trajectory for Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。 SHOTはベースラインモデルの計算複雑性をあまり増やさない。本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文参考訳（メタデータ） (2023-10-04T11:43:08Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。