論文の概要: Riemannian Gradient Descent for Low-Rank Architectures
- arxiv url: http://arxiv.org/abs/2606.02328v1
- Date: Mon, 01 Jun 2026 14:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.291232
- Title: Riemannian Gradient Descent for Low-Rank Architectures
- Title(参考訳): 低ランクアーキテクチャのためのリーマン勾配Descent
- Authors: Nicholas Knight,
- Abstract要約: アルゴリズム設計空間における10点について検討する。
提案手法を小言語モデルにおけるマルチヘッドアテンションパラメータに適用する。
我々の手法はAdamWベースラインを決定的に上回らない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore Riemannian optimization techniques for rank-factored matrix parameters, targeting contemporary deep learning applications. We examine ten points in the algorithm design space: two geometries for rank-$r$ matrices, three geometries for rank-$r$ partial isometries, and block-matrix variants of these five, where factors are shared across block-rows and block-columns. We apply our methods to the multihead attention parameters in small language models. After tuning learning rates, our methods do not conclusively outperform an AdamW baseline. Our implementations are available online.
- Abstract(参考訳): 本稿では,現代ディープラーニングアプリケーションを対象としたランク分解行列パラメータのリーマン最適化手法について検討する。
アルゴリズム設計空間の10点について、ランク-r$行列の2つの測度、ランク-r$部分等距離の3つの測度、ブロック-ロウとブロック-カラムの間で因子が共有される5つのブロック-行列変量について検討する。
提案手法を小言語モデルにおけるマルチヘッドアテンションパラメータに適用する。
学習率を調整した後、我々の手法はAdamWベースラインを決定的に上回らない。
私たちの実装はオンラインで利用可能です。
関連論文リスト
- Riemannian Optimization for Hadamard Products of Low-Rank Matrices [8.444687277893827]
2つの低ランク行列の要素的アダマール積は、乗法構造を持つデータに対してパラメータ効率のモデルを提供するが、追加の対称性が存在するため、そのモデリングは困難である。
空間の幾何学を活用するために、リーマン商多様体上の最適化としてそのような行列の学習を定式化する。
我々は、チューニング不要ガウスを用いた勾配のないガウス-ニュートン降下アルゴリズムを開発し、イテレーション毎に観測されたエントリ数に対して、ニュートンステップサイズと線形にスケールする。
論文 参考訳(メタデータ) (2026-05-31T13:10:23Z) - RMLR: Extending Multinomial Logistic Regression into General Geometries [64.16104856124029]
我々のフレームワークは、最小限の幾何学的性質しか必要とせず、広い適用性を示す。
SPD MLRの5つのファミリーを5種類のパワー変形測定値に基づいて開発する。
回転行列上では、人気のある双不変計量に基づいてリー MLR を提案する。
論文 参考訳(メタデータ) (2024-09-28T18:38:21Z) - FORML: A Riemannian Hessian-free Method for Meta-learning on Stiefel Manifolds [4.757859522106933]
本稿では、スティーフェル多様体上の微分の1次近似を用いたヘッセンフリーアプローチを提案する。
本手法は計算負荷とメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-28T10:57:30Z) - Efficient Methods for Non-stationary Online Learning [63.268670895111654]
動的後悔と適応的後悔を最適化する効率的な方法を提案する。
提案アルゴリズムでは,各ラウンドで1つの勾配クエリと1つの関数評価しか必要としない。
また、さらに強力な測度、すなわち「内部的動的後悔」を研究し、ラウンド当たりの射影数を$O(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - On a class of geodesically convex optimization problems solved via
Euclidean MM methods [50.428784381385164]
ユークリッド凸化関数の違いは、統計学と機械学習の異なるタイプの問題の違いとして記述できることを示す。
最終的に、より広い範囲、より広い範囲の作業を支援するのです。
論文 参考訳(メタデータ) (2022-06-22T23:57:40Z) - Geometry-aware Bayesian Optimization in Robotics using Riemannian
Mat\'ern Kernels [64.62221198500467]
ベイズ最適化のための幾何対応カーネルの実装方法を示す。
この技術は、ロボット工学における制御パラメータチューニング、パラメトリックポリシー適応、構造設計に利用できる。
論文 参考訳(メタデータ) (2021-11-02T09:47:22Z) - Symmetric Spaces for Graph Embeddings: A Finsler-Riemannian Approach [7.752212921476838]
表現学習における対称空間の体系的利用を提案する。
本研究では,組込み解析ツールを開発し,データセットの構造的特性を推定する。
提案手法は, 各種合成および実世界のデータセット上でのグラフ再構成タスクにおいて, 競合的ベースラインよりも優れる。
論文 参考訳(メタデータ) (2021-06-09T09:33:33Z) - Efficient Online Learning of Optimal Rankings: Dimensionality Reduction
via Gradient Descent [47.66497212729108]
一般化されたMin-Sum-Set-Cover問題は上記の設定の形式モデルとして機能する。
GMSSCインタイムでの後悔度を低くする方法を示す。
論文 参考訳(メタデータ) (2020-11-05T13:52:34Z) - Rank $2r$ iterative least squares: efficient recovery of ill-conditioned
low rank matrices from few entries [4.230158563771147]
低階行列補完のための新しい,単純で,計算効率のよい反復法を提案する。
我々のアルゴリズムは、R2RILS(R2RILS for rank $2r$peterative least squares)と呼ばれ、メモリ要件が低い。
論文 参考訳(メタデータ) (2020-02-05T16:20:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。