論文の概要: ARO: A New Lens On Matrix Optimization For Large Models
- arxiv url: http://arxiv.org/abs/2602.09006v1
- Date: Mon, 09 Feb 2026 18:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.434405
- Title: ARO: A New Lens On Matrix Optimization For Large Models
- Title(参考訳): ARO:大型モデルのマトリックス最適化のための新しいレンズ
- Authors: Wenbo Gong, Javier Zazo, Qijun Luo, Puqian Wang, James Hensman, Chao Ma,
- Abstract要約: マトリックスベースのベンチマークは、LLMトレーニング効率を改善することへの関心が高まっている。
パフォーマンスが大幅に向上する一方で、根本的な疑問が生じる: 直交化を超えて新しいパラダイムを開発することができるか?
回転を第一級設計原理として扱う新しい行列最適化フレームワークであるtexttextAdaptive Optimization (ARO) を提案する。
- 参考スコア(独自算出の注目度): 10.624890239551359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix-based optimizers have attracted growing interest for improving LLM training efficiency, with significant progress centered on orthogonalization/whitening based methods. While yielding substantial performance gains, a fundamental question arises: can we develop new paradigms beyond orthogonalization, pushing the efficiency frontier further? We present \textbf{Adaptively Rotated Optimization (ARO}, a new matrix optimization framework that treats gradient rotation as a first class design principle. ARO accelerates LLM training by performing normed steepest descent in a rotated coordinate system, where the rotation is determined by a novel norm-informed policy. This perspective yields update rules that go beyond existing orthogonalization and whitening optimizers, improving sample efficiency in practice. To make comparisons reliable, we propose a rigorously controlled benchmarking protocol that reduces confounding and bias. Under this protocol, ARO consistently outperforms AdamW (by 1.3 $\sim$1.35$\times$) and orthogonalization methods (by 1.1$\sim$1.15$\times$) in LLM pretraining at up to 8B activated parameters, and up to $8\times$ overtrain budget, without evidence of diminishing returns. Finally, we discuss how ARO can be reformulated as a symmetry-aware optimizer grounded in rotational symmetries of residual streams, motivating advanced designs that enable computationally efficient exploitation of cross-layer/cross module couplings.
- Abstract(参考訳): 行列ベースのオプティマイザは、直交法/白化法を中心に、LLMトレーニング効率向上への関心が高まっている。
我々は直交化を超えて新しいパラダイムを開発し、効率のフロンティアをさらに推し進めることができるだろうか?
本稿では、勾配回転を第一級設計原理として扱う新しい行列最適化フレームワークである「textbf{Adaptively Rotated Optimization (ARO)」を提案する。
AROは、回転座標系において、新しいノルムインフォームドポリシーによって回転が決定されるノルム化された急降下を実行することで、LCMトレーニングを加速する。
この観点は、既存の直交化やホワイトニングオプティマイザを超えた更新ルールをもたらし、実際にサンプル効率を向上させる。
コンバウンダリングとバイアスを低減できる厳格に制御されたベンチマークプロトコルを提案する。
このプロトコルの下で、AROはAdamW (1.3$\sim$1.35$\times$) と直交化法 (1.1$\sim$1.15$\times$) を最大8Bの活性化パラメータで事前訓練し、最大8\times$オーバートレインの予算を減らした証拠なしで一貫して上回っている。
最後に, 残差ストリームの回転対称性を基礎とした対称性対応最適化器としてAROを再構成し, クロス層/クロスモジュール結合の計算的有効利用を可能にする高度設計の動機付けについて述べる。
関連論文リスト
- Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - LoRA meets Riemannion: Muon Optimizer for Parametrization-independent Low-Rank Adapters [43.04933165005961]
ローランド適応(LoRA)のための新しいフレームワークを提案する。
LoRAは、固定階多様体上で直接最適化することで、低階アダプタを幾何学的に扱う。
私たちのフレームワークは、これを実現するために3つの重要なコンポーネントを統合しています。
論文 参考訳(メタデータ) (2025-07-16T11:17:12Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Iterative Reweighted Least Squares Networks With Convergence Guarantees
for Solving Inverse Imaging Problems [12.487990897680422]
解析に基づく画像正規化における画像再構成タスクの新しい最適化手法を提案する。
そのような正規化子は $ell_pp$-vector および $mathcalS_pp$ Schatten-matrix 準ノルムの重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。
提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。
論文 参考訳(メタデータ) (2023-08-10T17:59:46Z) - projUNN: efficient method for training deep networks with unitary
matrices [21.11571804661279]
トレーニング実行時のスケーリングを$O(kN2)$とすることで、フル$N$次元のユニタリあるいは行列をパラメータ化できる方法の2つの変種を導入する。
最も高速な設定であっても、ProjUNNはモデルのユニタリパラメータをトレーニングして、ベースライン実装に対して同等のパフォーマンスに達することができる。
論文 参考訳(メタデータ) (2022-03-10T17:04:41Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。