論文の概要: Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations
- arxiv url: http://arxiv.org/abs/2508.09787v1
- Date: Wed, 13 Aug 2025 13:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.897431
- Title: Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations
- Title(参考訳): Dual Pseudo-Inverse とOptimized Hidden Activation を用いたプロトタイプトレーニング
- Authors: Mauro Tucci,
- Abstract要約: Proto-PINV+Hは、閉形式重み計算と少数の合成入力の最適化を組み合わせた高速な訓練パラダイムである。
MNIST(60k列車、10kテスト)とFashion-MNIST(60k列車、10kテスト)では、公式の10kテストセットでそれぞれ97.8%、89.3%のテスト精度に達した。
- 参考スコア(独自算出の注目度): 0.14504054468850663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Proto-PINV+H, a fast training paradigm that combines closed-form weight computation with gradient-based optimisation of a small set of synthetic inputs, soft labels, and-crucially-hidden activations. At each iteration we recompute all weight matrices in closed form via two (or more) ridge-regularised pseudo-inverse solves, while updating only the prototypes with Adam. The trainable degrees of freedom are thus shifted from weight space to data/activation space. On MNIST (60k train, 10k test) and Fashion-MNIST (60k train, 10k test), our method reaches 97.8% and 89.3% test accuracy on the official 10k test sets, respectively, in 3.9s--4.5s using approximately 130k trainable parameters and only 250 epochs on an RTX 5060 (16GB). We provide a multi-layer extension (optimised activations at each hidden stage), learnable ridge parameters, optional PCA/PLS projections, and theory linking the condition number of prototype matrices to generalisation. The approach yields favourable accuracy--speed--size trade-offs against ELM, random-feature ridge, and shallow MLPs trained by back-propagation.
- Abstract(参考訳): 本稿では, 閉形式重み計算と, 少量の合成入力, ソフトラベル, 厳密に隠蔽されたアクティベーションの勾配に基づく最適化を組み合わせた高速トレーニングパラダイムであるProto-PINV+Hを提案する。
各イテレーションにおいて、すべてのウェイト行列を2つ(またはそれ以上)のリッジ正規化擬逆解によって閉形式に再計算し、プロトタイプのみをAdamで更新する。
これにより、トレーニング可能な自由度は、重み空間からデータ/アクティベーション空間へとシフトする。
MNIST(60k系10k系10k系10k系10k系10k系10k系10k系)とFashion-MNIST(60k系60k系10k系10k系10k系10k系10k系10k系10k系10k系10k系10k系10k系10k系3.9s-4.5系でそれぞれ97.8%,89.3%,RTX 5060型16GB系250エポック系は約130k系3.9s-4.5系3.9s-4.5。
本稿では,多層拡張(隠れステージ毎のアクティベーション最適化),学習可能なリッジパラメータ,PCA/PLSプロジェクション,およびプロトタイプ行列の条件数と一般化をリンクする理論を提案する。
このアプローチは、EMM、ランダム機能リッジ、バックプロパゲーションによって訓練された浅いMPPに対する、良好な精度-高速-サイズトレードオフをもたらす。
関連論文リスト
- Gaussian Weight Sampling for Scalable, Efficient and Stable Pseudo-Quantization Training [5.908471365011943]
PQT(Pseudo-quantization Training)は、完全量子化トレーニング(FQT)の課題に対処する。
我々は,最大1Bパラメータと300Bトークンを有するGPT2およびLlama2モデルの事前学習中に,重量サンプリングを伴うPQTが(3)安定であることを示す。
論文 参考訳(メタデータ) (2025-05-16T12:14:12Z) - Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Diffusion Sampling Correction via Approximately 10 Parameters [8.577537076809316]
拡散確率モデル(DPM)のためのPCAベースの適応探索(PAS)を提案する。
我々は,高次元サンプリング空間にまたがるいくつかの基底ベクトルを得るためにPCAを使用し,一組の座標を学習してサンプリング方向を補正する。
次に、サンプリング効率をさらに高め、格納されたパラメータの数を約10に削減する適応探索戦略を設計する。
論文 参考訳(メタデータ) (2024-11-10T15:57:53Z) - Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors [80.6043267994434]
既存の手法と根本的に異なる単純なアプローチであるSVFTを提案する。
SVFTは特異ベクトルの外積のスパース結合として(W)を更新し、これらのスパース結合の係数(スケール)のみを訓練する。
言語とビジョンベンチマークの実験では、SVFTは完全な微調整性能の96%を回復し、パラメータの0.006から0.25%しかトレーニングしていない。
論文 参考訳(メタデータ) (2024-05-30T01:27:43Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。