論文の概要: PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
- arxiv url: http://arxiv.org/abs/2605.28819v1
- Date: Wed, 27 May 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.272811
- Title: PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
- Title(参考訳): PEFT-Arena:安定性・塑性の観点からのパラメータ効率の高いファインタニング
- Authors: Yangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu,
- Abstract要約: PEFTは安定性・塑性ジレンマにより評価されるべきである。
本稿では,下流性能と一般能力の維持を計測するベンチマークPEFT-Arenaを紹介する。
そこで本研究では,パスワイド巻き戻しによるポストホック改善の事例研究を行った。
- 参考スコア(独自算出の注目度): 52.693471818837395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient finetuning (PEFT) has become the standard approach for adapting large language models, yet evaluations largely emphasize downstream accuracy while overlooking the retention of pretrained capabilities. We argue that PEFT should be assessed through the stability-plasticity dilemma: the trade-off between target-task adaptation and resistance to forgetting. We introduce PEFT-Arena, a benchmark that jointly measures downstream performance and general capability retention. Across methods, we find distinct stability-plasticity profiles; under comparable parameter budgets, orthogonal finetuning achieves the most favorable Pareto frontier. To explain these differences, we analyze PEFT updates from two geometric perspectives. In weight space, spectral analysis reveals how parameterizations interact with the pretrained singular-value structure. In activation space, retention metrics show whether finetuning preserves or distorts general-capability representations, with forgetting linked to non-isometric representation distortion. Finally, an analysis shows that final SFT checkpoints often overshoot a better target-retention operating point. Inspired by this, we present case studies of a post-hoc improvement with path-wise rewinding.
- Abstract(参考訳): パラメータ効率ファインタニング(PEFT)は大規模言語モデルに適応する標準的な手法となっているが、評価は事前訓練された能力の維持を目立たせながら、下流の精度を重視している。
我々は,PEFTは,目標タスク適応と,忘れることへの抵抗のトレードオフである安定性・塑性ジレンマによって評価されるべきであると主張している。
本稿では,下流性能と一般能力維持を共同で測定するベンチマークPEFT-Arenaを紹介する。
パラメータ予算では直交微調整は最も好ましいパレートフロンティアを実現する。
これらの違いを説明するために,2つの幾何学的視点からPEFT更新を解析した。
重み空間において、スペクトル解析はパラメータ化が事前訓練された特異値構造とどのように相互作用するかを明らかにする。
アクティベーション空間において、保持度は、非等尺的表現歪みに関連付けて、微調整が一般能力表現を保存するか歪曲するかを示す。
最後に、分析の結果、最終的なSFTチェックポイントは、しばしばより良い目標保持動作ポイントをオーバーシュートすることが示された。
そこで本研究では,パスワイド巻き戻しによるポストホック改善の事例研究を行った。
関連論文リスト
- Parameter Importance is Not Static: Evolving Parameter Isolation for Supervised Fine-Tuning [26.480133417682897]
大規模言語モデルの教師付きファインチューニング(SFT)は、しばしばタスクの干渉や忘れに悩まされる。
最近のアプローチでは、トレーニング中にタスククリティカルパラメータを分離することでこの問題を軽減することができる。
本稿では,パラメータのオンライン推定に基づく分離決定を微調整するフレームワークであるEvolving isolation (EPI)を提案する。
論文 参考訳(メタデータ) (2026-04-15T15:55:38Z) - TPV: Parameter Perturbations Through the Lens of Test Prediction Variance [1.9443009938188445]
テスト予測分散(TPV)は、トレーニングされた解の周囲の摂動に対するモデル出力の1次感度である。
TPVは、訓練されたモデルの幾何学を特定の摂動機構から分離する、完全なラベルのない物体である。
論文 参考訳(メタデータ) (2025-12-11T20:04:33Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Support estimation in high-dimensional heteroscedastic mean regression [2.07180164747172]
ランダムな設計と、潜在的にヘテロセダスティックで重み付きエラーを伴う線形平均回帰モデルを考える。
我々は,問題のパラメータに依存するチューニングパラメータを備えた,厳密な凸・滑らかなHuber損失関数の変種を用いる。
得られた推定器に対して、$ell_infty$ノルムにおける符号一貫性と最適収束率を示す。
論文 参考訳(メタデータ) (2020-11-03T09:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。