Fugu-MT 論文翻訳(概要): Numerical Optimizations for Weighted Low-rank Estimation on Language Model

論文の概要: Numerical Optimizations for Weighted Low-rank Estimation on Language Model

arxiv url: http://arxiv.org/abs/2211.09718v1
Date: Wed, 2 Nov 2022 00:58:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-20 13:42:29.742240
Title: Numerical Optimizations for Weighted Low-rank Estimation on Language Model
Title（参考訳）: 言語モデルに基づく重み付き低ランク推定の数値最適化
Authors: Ting Hua, Yen-Chang Hsu, Felicity Wang, Qian Lou, Yilin Shen, Hongxia Jin
Abstract要約: Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 73.12941276331316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Singular value decomposition (SVD) is one of the most popular compression methods that approximate a target matrix with smaller matrices. However, standard SVD treats the parameters within the matrix with equal importance, which is a simple but unrealistic assumption. The parameters of a trained neural network model may affect task performance unevenly, which suggests non-equal importance among the parameters. Compared to SVD, the decomposition method aware of parameter importance is the more practical choice in real cases. Unlike standard SVD, weighted value decomposition is a non-convex optimization problem that lacks a closed-form solution. We systematically investigated multiple optimization strategies to tackle the problem and examined our method by compressing Transformer-based language models. Further, we designed a metric to predict when the SVD may introduce a significant performance drop, for which our method can be a rescue strategy. The extensive evaluations demonstrate that our method can perform better than current SOTA methods in compressing Transformer-based language models.
Abstract（参考訳）: 特異値分解(SVD)は、ターゲット行列を小さい行列で近似する最も一般的な圧縮手法の1つである。しかし、標準SVDは行列内のパラメータを同じ重要性で扱い、これは単純だが非現実的な仮定である。トレーニングされたニューラルネットワークモデルのパラメータは、タスクのパフォーマンスに不均一に影響を及ぼす可能性がある。 SVDと比較すると,パラメータの重要性を意識した分解法の方が実例ではより実践的な選択である。標準SVDとは異なり、重み付け値分解は閉形式解を持たない非凸最適化問題である。この問題に対処する複数の最適化手法を体系的に検討し,トランスフォーマーに基づく言語モデルを圧縮して検討した。さらに,SVDがいつ大きな性能低下をもたらすかを予測する指標を設計し,その方法が救難戦略となるようにした。本手法はトランスフォーマーに基づく言語モデルの圧縮において,現在のSOTA法よりも優れた性能を示す。

関連論文リスト

Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文参考訳（メタデータ） (2025-06-18T08:28:53Z)
AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文参考訳（メタデータ） (2025-02-03T14:34:37Z)
Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。 SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文参考訳（メタデータ） (2024-10-30T12:08:30Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文参考訳（メタデータ） (2024-09-09T08:44:53Z)
Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-06-30T21:57:07Z)
Large-Scale System Identification Using a Randomized SVD [4.567810220723372]
近似行列因数分解は、実現アルゴリズムにおける標準SVDを置き換えることができることを示す。これはモデルを作ることができる唯一の方法です。
論文参考訳（メタデータ） (2021-09-06T19:25:15Z)
Conservative Objective Models for Effective Offline Model-Based Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。 COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文参考訳（メタデータ） (2021-07-14T17:55:28Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。