論文の概要: Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation
- arxiv url: http://arxiv.org/abs/2605.12492v1
- Date: Tue, 12 May 2026 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.080897
- Title: Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation
- Title(参考訳): Pion: 直交同値変換によるスペクトル保存最適化
- Authors: Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu,
- Abstract要約: 直交同値変換に基づく大規模言語モデル(LLM)学習のためのスペクトル保存であるPionを導入する。
Pion の更新規則は設計選択を体系的に検討し、その収束挙動といくつかの重要な特性を解析する。
実証的な結果から、Pionは事前学習と微調整の両方に標準LLMに代わる安定かつ競争的な代替手段を提供することが示された。
- 参考スコア(独自算出の注目度): 30.86228838205224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Pion, a spectrum-preserving optimizer for large language model (LLM) training based on orthogonal equivalence transformation. Unlike additive optimizers such as Adam and Muon, Pion updates each weight matrix through left and right orthogonal transformations, preserving its singular values throughout training. This yields an optimization mechanism that modulates the geometry of weight matrices while keeping their spectral norm fixed. We derive the Pion update rule, systematically examine its design choices, and analyze its convergence behavior along with several key properties. Empirical results show that Pion offers a stable and competitive alternative to standard optimizers for both LLM pretraining and finetuning.
- Abstract(参考訳): 直交同値変換に基づく大規模言語モデル(LLM)学習のためのスペクトル保存最適化であるPionを導入する。
アダムやムオンのような加法オプティマイザとは異なり、ピオンは各重み行列を左右直交変換を通じて更新し、訓練を通してその特異値を保存する。
これにより、スペクトルノルムを固定しながら重量行列の幾何学を変調する最適化機構が得られる。
我々は、Pion更新規則を導出し、その設計選択を体系的に検討し、その収束挙動をいくつかの重要な特性とともに分析する。
実証的な結果から、PionはLLMプリトレーニングと微調整の両方の標準オプティマイザに代わる安定かつ競争的な代替手段を提供することが示された。
関連論文リスト
- Muon-OGD: Muon-based Spectral Orthogonal Gradient Projection for LLM Continual Learning [15.604900995606451]
スペクトルノルムを意識した連続学習フレームワークであるMuon-OGDを提案する。
提案手法を標準連続学習ベンチマークで評価する。
論文 参考訳(メタデータ) (2026-05-09T13:42:08Z) - Linear Reservoir: A Diagonalization-Based Optimization [1.7258249784556916]
線形エコー状態ネットワーク(ESN)の対角化に基づく最適化
線形エコー状態ネットワーク(ESN)の対角化に基づく最適化を導入し,O(N2)からO(N)への貯水池状態更新のステップ毎の計算複雑性を低減する。
論文 参考訳(メタデータ) (2026-02-23T12:58:34Z) - Muon with Spectral Guidance: Efficient Optimization for Scientific Machine Learning [10.647088281181222]
SpecMuonは、物理インフォームドラーニングのためのスペクトル対応多モード勾配流である。
これは、ムオンのスケールバランス特性を保ちながら、グローバルな損失エネルギーに応じてステップサイズを規制する。
アダム・アダムWよりも早く収束し、安定性を向上させる。
論文 参考訳(メタデータ) (2026-02-18T03:56:20Z) - Rethinking Diffusion Models with Symmetries through Canonicalization with Applications to Molecular Graph Generation [56.361076943802594]
CanonFlowは、挑戦的なGEOM-DRUGデータセット上で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-16T18:58:55Z) - Variational Entropic Optimal Transport [67.76725267984578]
本稿では,ドメイン翻訳問題に対する変分エントロピー最適輸送(VarEOT)を提案する。
VarEOTは、補助正の正規化子上のトラクタブルな一般化として、log-partition $log mathbbE[exp(cdot)$の正確な変分再構成に基づいている。
合成データと画像と画像の変換に関する実験は、競争力のあるか、あるいはより良い翻訳品質を示す。
論文 参考訳(メタデータ) (2026-02-02T15:48:44Z) - FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer [30.184978506988767]
我々は、フィッシャー情報幾何を通して異方性ニューロトロピックな幾何情報を含むFISMOを紹介する。
FISMOは、確立されたベースラインよりも優れた効率と最終性能を達成する。
論文 参考訳(メタデータ) (2026-01-29T14:05:04Z) - WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - Multiplicative Updates for Online Convex Optimization over Symmetric
Cones [28.815822236291392]
任意の対称コーンのトレースワンスライスに対するオンライン最適化のためのプロジェクションフリーアルゴリズムであるSymmetric-Cone Multiplicative Weights Update (SCMWU)を導入する。
SCMWUは, 対称錐負エントロピーを正則化器とするFollow-the-Regularized-LeaderおよびOnline Mirror Descentと等価であることを示す。
論文 参考訳(メタデータ) (2023-07-06T17:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。