論文の概要: Rethinking Local Learning: A Cheaper and Faster Recipe for LLM Post-Training
- arxiv url: http://arxiv.org/abs/2605.04913v2
- Date: Thu, 07 May 2026 10:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:06.168365
- Title: Rethinking Local Learning: A Cheaper and Faster Recipe for LLM Post-Training
- Title(参考訳): ローカルラーニングを再考する - LLMポストトライニングの迅速かつ高速なレシピ
- Authors: Hengyu Shi, Tianyang Han, Peizhe Wang, Zhiling Wang, Xu Yang, Junhao Su,
- Abstract要約: LLM後トレーニングは、モデルの完全な深さを通してタスク勾配を伝搬する。
LoPTは変圧器の中間点に1つの勾配境界を置く。
LoPTは、メモリコストの低減、トレーニング効率の向上、事前訓練された能力の維持など、競争力のあるパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 11.589215544040949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM post-training typically propagates task gradients through the full depth of the model. Although this end-to-end structure is simple and general, it couples task adaptation to full-depth activation storage, long-range backward dependencies and direct task-gradient access to pretrained representations. We argue that this full-depth backward coupling can be unnecessarily expensive and intrusive, particularly when post-training supervision is much narrower than pre-training. To this end, we propose \textbf{LoPT}: Local-Learning Post-Training, a simple post-training strategy that makes gradient reach an explicit design choice. LoPT places a single gradient boundary at the transformer midpoint: the second-half block learns from the task objective, while the first-half block is updated by a lightweight feature-reconstruction objective to preserve useful representations and maintain interface compatibility. LoPT shortens the task-induced backward path while limiting direct interference from narrow task gradients on early-layer representations. Extensive experiments demonstrate that LoPT achieves competitive performance with lower memory cost, higher training efficiency and better retention of pretrained capabilities. Our code is available at: https://github.com/HumyuShi/LoPT
- Abstract(参考訳): LLMポストトレーニングは通常、モデルの完全な深さを通してタスク勾配を伝搬する。
このエンドツーエンド構造は単純で汎用的なものであるが、タスク適応をフル深度アクティベーションストレージ、長距離後方依存性、事前訓練された表現へのタスク勾配アクセスに結合する。
トレーニング後管理が事前トレーニングよりもはるかに狭い場合,この完全奥行き結合は必要以上に高価で侵入的になり得る,と我々は主張する。
この目的のために,局所学習後学習法である「textbf{LoPT}: Local-Learning Post-Training」を提案する。
LoPTは1つの勾配境界をトランスフォーマーの中間点に置き、第2の半減ブロックはタスクの目的から学習し、一方、第1の半減ブロックは軽量な特徴再構成目標によって更新され、有用な表現を保持し、インタフェースの互換性を維持する。
LoPTは、初期層表現の狭いタスク勾配からの直接干渉を制限しながら、タスク誘発の後方経路を短縮する。
大規模な実験により、LOTはメモリコストの低減、トレーニング効率の向上、事前訓練された能力の維持により競争性能が向上することが示された。
私たちのコードは、https://github.com/HumyuShi/LoPTで利用可能です。
関連論文リスト
- Basis-Oriented Low-rank Transfer for Few-Shot and Test-Time Adaptation [10.804106052326402]
厳密なデータと計算予算の下で、大きな事前訓練されたモデルを未確認のタスクに適用することは、依然として困難である。
本稿では,既存の微調整モデルを再利用し,そのサブ空間内に適応するフレームワークBOLTを提案する。
本結果は,タスクインフォームド部分空間への制約適応が,目に見えないタスク転送の効果的な代替手段となることを示す。
論文 参考訳(メタデータ) (2025-12-02T06:00:16Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - Revisiting Locally Supervised Learning: an Alternative to End-to-end
Training [36.43515074019875]
そこで我々は,情報伝達(InfoPro)損失を提案する。ローカルモジュールが可能な限り有用な情報を保存することを奨励する。
E2E トレーニングと比較して,InfoPro は 40% 未満のメモリフットプリントで競合性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-01-26T15:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。