論文の概要: FastForward Pruning: Efficient LLM Pruning via Single-Step Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.18977v1
- Date: Mon, 24 Nov 2025 10:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.162154
- Title: FastForward Pruning: Efficient LLM Pruning via Single-Step Reinforcement Learning
- Title(参考訳): Fast Forward Pruning: シングルステップ強化学習による効率的なLCM Pruning
- Authors: Xin Yuan, Siqi Li, Jiateng Wei, Chengrui Zhu, Yanming Wu, Qingpeng Li, Jiajun Lv, Xiaoke Lan, Jun Chen, Yong Liu,
- Abstract要約: プルーニングは大規模言語モデルを圧縮する効果的な方法であるが、最適で一様でない層単位の空間配置を見つけることは重要な課題である。
本稿では,複雑な予算充足問題から政策最適化を分離する単一ステップのRLフレームワークであるFastForward Pruningを提案する。
提案手法は,計算コストのごく一部で競争力や優位性を達成し,探索効率において明らかな優位性を示す。
- 参考スコア(独自算出の注目度): 20.280473092952985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning is an effective method for compressing Large Language Models, but finding an optimal, non-uniform layer-wise sparsity allocation remains a key challenge. While heuristic methods are fast but yield suboptimal performance, more powerful search-based approaches like Reinforcement Learning are often hindered by prohibitive computational costs on large-scale models. To overcome this efficiency barrier, we propose FastForward Pruning. Its core is a decoupled, single-step RL framework that separates policy optimization from the complex budget satisfaction problem. Such a decoupling is crucial for efficiently searching the vast policy space of LLMs. This curriculum-based strategy begins with low-cost, simple tasks and gradually increases in complexity, significantly reducing the search's computational overhead. Evaluated on the LLaMA, Mistral, and OPT model families, our framework discovers pruning policies that achieve superior performance over strong heuristic baselines. Crucially, when compared to other search-based algorithms, our method achieves competitive or superior results at a fraction of the computational cost, demonstrating a clear advantage in search efficiency.
- Abstract(参考訳): プルーニングは大規模言語モデルを圧縮する効果的な方法であるが、最適で一様でない層単位の空間配置を見つけることは重要な課題である。
ヒューリスティックな手法は高速だが準最適性能が得られるが、強化学習のようなより強力な検索ベースのアプローチは大規模モデルにおける計算コストの禁止によってしばしば妨げられる。
この効率障壁を克服するため,我々はFastForward Pruningを提案する。
その中核は、複雑な予算満足の問題からポリシーの最適化を分離する、分離されたシングルステップのRLフレームワークである。
このような疎結合は、LLMの広大な政策空間を効率的に探索するために重要である。
このカリキュラムベースの戦略は、低コストで単純なタスクから始まり、徐々に複雑さを増し、探索の計算オーバーヘッドを大幅に減少させる。
LLaMA, Mistral, OPTモデルファミリを用いて評価し, 強いヒューリスティックベースラインよりも優れた性能を実現するプルーニングポリシーを発見する。
重要な点として、他の検索ベースアルゴリズムと比較して、本手法は計算コストのごく一部で競争力や優位性を達成し、探索効率において明らかな優位性を示す。
関連論文リスト
- WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z) - Prompt Curriculum Learning for Efficient LLM Post-Training [30.19003037220951]
本稿では,学習価値モデルを用いて中間微分プロンプトを選択するアルゴリズムであるPrompt Curriculum Learning (PCL)を紹介する。
我々は,PCLがRLの間,より困難なプロンプトに集中できることを示す。
論文 参考訳(メタデータ) (2025-10-01T17:24:28Z) - Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning [0.0]
本稿では,1ステップのマルコフ決定プロセス(MDP)として適応戦略選択を形式化する軽量強化学習フレームワークであるPrompt Policy Network(PPN)を紹介する。
算術的推論ベンチマークの実験では、PPNは競争精度を維持しながら自己整合性よりも61.5%のトークンコスト削減を達成した。
論文 参考訳(メタデータ) (2025-09-28T07:32:42Z) - Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization [26.462701299259248]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。
長いアウトプットは計算コストを増大させ、過度に考え直し、推論の有効性と効率のバランスをとる上での課題を提起する。
本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
論文 参考訳(メタデータ) (2025-08-13T20:00:09Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-15T12:14:16Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - A Reinforcement Learning Approach for Scheduling Problems With Improved
Generalization Through Order Swapping [0.0]
JSSP は NP-hard COP のカテゴリに分類される。
近年,COPの解法にDRLを用いる研究が注目され,解の質や計算効率の面で有望な結果が示されている。
特に、制約されたジョブのディスパッチにおいてよく機能すると考えられるポリシ・グラディエントパラダイムを採用するPPOアルゴリズムを採用する。
論文 参考訳(メタデータ) (2023-02-27T16:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。