Fugu-MT 論文翻訳(概要): Differentiable Learning of Generalized Structured Matrices for Efficient Deep Neural Networks

論文の概要: Differentiable Learning of Generalized Structured Matrices for Efficient Deep Neural Networks

arxiv url: http://arxiv.org/abs/2310.18882v2
Date: Fri, 8 Mar 2024 02:13:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 23:17:01.508256
Title: Differentiable Learning of Generalized Structured Matrices for Efficient Deep Neural Networks
Title（参考訳）: ニューラルネットワークのための一般化構造行列の微分学習
Authors: Changwoo Lee, Hun-Seok Kim
Abstract要約: 本稿では,高密度非構造体を所望の特性を持つ構造体に置き換えるための効率的なディープニューラルネットワーク(DNN)について検討する。この課題は、一般的なニューラルネットワークモデルにおける最適な重み行列構造がほとんどの場合不明瞭であり、同じネットワークであっても層ごとに異なるためである。本稿では,勾配降下による重み行列の効率的な構造を学習するための一般化および微分可能なフレームワークを提案する。
参考スコア（独自算出の注目度）: 16.546708806547137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates efficient deep neural networks (DNNs) to replace dense unstructured weight matrices with structured ones that possess desired properties. The challenge arises because the optimal weight matrix structure in popular neural network models is obscure in most cases and may vary from layer to layer even in the same network. Prior structured matrices proposed for efficient DNNs were mostly hand-crafted without a generalized framework to systematically learn them. To address this issue, we propose a generalized and differentiable framework to learn efficient structures of weight matrices by gradient descent. We first define a new class of structured matrices that covers a wide range of structured matrices in the literature by adjusting the structural parameters. Then, the frequency-domain differentiable parameterization scheme based on the Gaussian-Dirichlet kernel is adopted to learn the structural parameters by proximal gradient descent. On the image and language tasks, our method learns efficient DNNs with structured matrices, achieving lower complexity and/or higher performance than prior approaches that employ low-rank, block-sparse, or block-low-rank matrices.
Abstract（参考訳）: 本稿では,非構造重み行列を望ましい特性を持つ構造行列に置き換える効率的な深層ニューラルネットワーク(dnn)について検討する。この課題は、一般的なニューラルネットワークモデルにおける最適な重み行列構造がほとんどの場合不明瞭であり、同じネットワークであっても層ごとに異なるためである。効率的なDNNを提案する以前の構造化行列は、体系的に学習するための一般化されたフレームワークなしで手作りされていた。この問題に対処するために、勾配降下による重量行列の効率的な構造を学習するための一般化および微分可能なフレームワークを提案する。まず,構造パラメータの調整により,多種多様な構造化行列を対象とする構造化行列の新たなクラスを文献で定義する。次に、gaussian-dirichletカーネルに基づく周波数領域微分可能パラメータ化スキームを採用し、近位勾配降下により構造パラメータを学習する。画像と言語タスクでは, 構造化行列を用いた効率的なDNNを学習し, 低ランク, ブロックスパース, ブロックローランクの行列を用いた従来の手法よりも, より少ない複雑性および/または高い性能を実現する。

関連論文リスト

Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models [6.389310720722303]
我々は、構造化された入力依存状態遷移行列を持つシーケンスモデルのための統一フレームワークを提供する。 S4 と Mamba の対角的状態遷移行列とは異なり、SLiCE はブロック対角行列、スパース行列、ウォルシュ-ハダマール行列を用いる。経験的に、SLiCEは1層で$A_5$の状態追跡ベンチマークを解き、並列時間モデル間での正規言語タスクのクラス長の最適化を実現し、ログニューラル制御微分方程式の最先端性能に適合する。
論文参考訳（メタデータ） (2025-05-23T11:34:21Z)
Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文参考訳（メタデータ） (2025-04-01T14:36:45Z)
BLAST: Block-Level Adaptive Structured Matrices for Efficient Deep Neural Network Inference [15.519068157865023]
本稿では,Block-Level Adaptive STructured (BLAST) 行列を導入し,ディープラーニングモデルにおける線形層の重み行列に代表される効率的な構造を学習・活用する。言語と視覚の両方のタスクを圧縮するために行列を用いることの効率を実証する。
論文参考訳（メタデータ） (2024-10-28T17:56:18Z)
Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文参考訳（メタデータ） (2024-10-03T00:44:50Z)
Group and Shuffle: Efficient Structured Orthogonal Parametrization [3.540195249269228]
構造化された行列の新しいクラスを導入し、以前の研究から構造化されたクラスを統一し一般化する。我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。
論文参考訳（メタデータ） (2024-06-14T13:29:36Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
A Recursively Recurrent Neural Network (R2N2) Architecture for Learning Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文参考訳（メタデータ） (2022-11-22T16:30:33Z)
Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。 SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-23T18:37:22Z)
A Structured Sparse Neural Network and Its Matrix Calculations Algorithm [0.0]
非対称な三対角行列を導入し, 対角方向のスパース成分とオフセット部分および超対角線を導入した。行列逆が存在しない場合には、最小二乗型擬逆が提供される。その結果,行列のサイズが大きくなると計算コストが著しく向上することがわかった。
論文参考訳（メタデータ） (2022-07-02T19:38:48Z)
Rank-R FNN: A Tensor-Based Learning Model for High-Order Data Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。 Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文参考訳（メタデータ） (2021-04-11T16:37:32Z)
Dual-constrained Deep Semi-Supervised Coupled Factorization Network with Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文参考訳（メタデータ） (2020-09-08T13:10:21Z)
Block-encoding based quantum algorithm for linear systems with displacement structures [4.145426157018113]
本稿では, 変位構造を持つ線形系を解くために, 効率よく, メモリリデュースした量子アルゴリズムを提案する。提案したブロックエンコーディングは、古典的アルゴリズムの次元に関して二次的なスピードアップを提供する。量子線形系の解法の一つを時系列の線形予測に適用する。
論文参考訳（メタデータ） (2019-12-27T16:10:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。