論文の概要: Group and Shuffle: Efficient Structured Orthogonal Parametrization
- arxiv url: http://arxiv.org/abs/2406.10019v1
- Date: Fri, 14 Jun 2024 13:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:35:39.739129
- Title: Group and Shuffle: Efficient Structured Orthogonal Parametrization
- Title(参考訳): 群とシャッフル:効率的な構造直交パラメトリゼーション
- Authors: Mikhail Gorbunov, Nikolay Yudin, Vera Soboleva, Aibek Alanov, Alexey Naumov, Maxim Rakhuba,
- Abstract要約: 構造化された行列の新しいクラスを導入し、以前の研究から構造化されたクラスを統一し一般化する。
我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。
- 参考スコア(独自算出の注目度): 3.540195249269228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing size of neural networks has led to a growing demand for methods of efficient fine-tuning. Recently, an orthogonal fine-tuning paradigm was introduced that uses orthogonal matrices for adapting the weights of a pretrained model. In this paper, we introduce a new class of structured matrices, which unifies and generalizes structured classes from previous works. We examine properties of this class and build a structured orthogonal parametrization upon it. We then use this parametrization to modify the orthogonal fine-tuning framework, improving parameter and computational efficiency. We empirically validate our method on different domains, including adapting of text-to-image diffusion models and downstream task fine-tuning in language modeling. Additionally, we adapt our construction for orthogonal convolutions and conduct experiments with 1-Lipschitz neural networks.
- Abstract(参考訳): ニューラルネットワークのサイズが大きくなると、効率的な微調整方法への需要が高まっている。
近年,事前学習モデルの重み付けに直交行列を用いる直交微調整パラダイムが導入された。
本稿では、構造化されたクラスを以前の作品から統一・一般化する、構造化行列の新しいクラスを紹介する。
このクラスの性質を調べ、その上に構造的直交パラメトリゼーションを構築する。
次に、このパラメトリゼーションを用いて直交微調整フレームワークを修正し、パラメータと計算効率を改善する。
我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。
さらに,直交畳み込みに適応し,1-Lipschitzニューラルネットワークを用いて実験を行う。
関連論文リスト
- Linear Chain Transformation: Expanding Optimization Dynamics for Fine-Tuning Large Language Models [11.314144876785823]
線形連鎖変換(LinChain)は、微調整中に線形変換の列を導入し、最適化力学を豊かにする新しい手法である。
複数の線形変換をパラメータ更新プロセスに組み込むことで、LinChainは更新の効果的なランクを拡大し、複雑なタスク固有の表現を学習するモデルの能力を強化する。
各種ベンチマークタスクの実験から,LinChainはより一般化され,学習可能なパラメータが減り,タスク適応性が向上したことが示された。
論文 参考訳(メタデータ) (2024-10-29T14:07:24Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Differentiable Learning of Generalized Structured Matrices for Efficient
Deep Neural Networks [16.546708806547137]
本稿では,高密度非構造体を所望の特性を持つ構造体に置き換えるための効率的なディープニューラルネットワーク(DNN)について検討する。
この課題は、一般的なニューラルネットワークモデルにおける最適な重み行列構造がほとんどの場合不明瞭であり、同じネットワークであっても層ごとに異なるためである。
本稿では,勾配降下による重み行列の効率的な構造を学習するための一般化および微分可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:07:30Z) - Orthogonal Transforms in Neural Networks Amount to Effective
Regularization [0.0]
非線形システム同定におけるニューラルネットワークの適用について考察する。
そのような構造が普遍近似であることを示す。
特に、フーリエ変換を用いたそのような構造は直交サポートのない同値モデルよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-05-10T17:52:33Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Tensor-based Sequential Learning via Hankel Matrix Representation for
Next Item Recommendations [0.0]
自己注意型トランスフォーマーモデルは、次の項目の推薦タスクを非常に効率的に解くことが示されている。
学習パラメータ空間の特別な構造に動機付けられ、それに代わるより軽量なアプローチでそれを模倣できるかどうかを疑問視する。
学習プロセス内のシーケンシャルデータに関する構造的知識を生かしたテンソル分解に基づく新しいモデルを開発する。
論文 参考訳(メタデータ) (2022-12-12T05:55:40Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Neural Subdivision [58.97214948753937]
本稿では,データ駆動型粗粒度モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。
すべてのローカルメッシュパッチで同じネットワーク重みのセットを最適化するため、特定の入力メッシュや固定属、カテゴリに制約されないアーキテクチャを提供します。
単一の高分解能メッシュでトレーニングしても,本手法は新規な形状に対して合理的な区分を生成する。
論文 参考訳(メタデータ) (2020-05-04T20:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。