論文の概要: Beyond Fully-Connected Layers with Quaternions: Parameterization of
Hypercomplex Multiplications with $1/n$ Parameters
- arxiv url: http://arxiv.org/abs/2102.08597v1
- Date: Wed, 17 Feb 2021 06:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:53:18.621372
- Title: Beyond Fully-Connected Layers with Quaternions: Parameterization of
Hypercomplex Multiplications with $1/n$ Parameters
- Title(参考訳): 四元数をもつ完全連結層を超えて:1/n$パラメータを持つ超複素乗算のパラメータ化
- Authors: Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung
Hui, Jie Fu
- Abstract要約: モデルが事前に定義されているかどうかにかかわらず、データから乗算ルールを学習できるように、ハイパーコンプレックス乗算のパラメータ化を提案する。
我々の手法はハミルトン積を仮定するだけでなく、任意の nD 超複素空間上での操作も学んでいる。
- 参考スコア(独自算出の注目度): 71.09633069060342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have demonstrated reasonable success of representation learning
in hypercomplex space. Specifically, "fully-connected layers with Quaternions"
(4D hypercomplex numbers), which replace real-valued matrix multiplications in
fully-connected layers with Hamilton products of Quaternions, both enjoy
parameter savings with only 1/4 learnable parameters and achieve comparable
performance in various applications. However, one key caveat is that
hypercomplex space only exists at very few predefined dimensions (4D, 8D, and
16D). This restricts the flexibility of models that leverage hypercomplex
multiplications. To this end, we propose parameterizing hypercomplex
multiplications, allowing models to learn multiplication rules from data
regardless of whether such rules are predefined. As a result, our method not
only subsumes the Hamilton product, but also learns to operate on any arbitrary
nD hypercomplex space, providing more architectural flexibility using
arbitrarily $1/n$ learnable parameters compared with the fully-connected layer
counterpart. Experiments of applications to the LSTM and Transformer models on
natural language inference, machine translation, text style transfer, and
subject verb agreement demonstrate architectural flexibility and effectiveness
of the proposed approach.
- Abstract(参考訳): 最近の研究は、超複素空間における表現学習の合理的な成功を示している。
具体的には、フルコネクテッド層における実値行列乗算をクォータニオンのハミルトン積に置き換える「クォータニオン付きフルコネクテッド層」(4次元超複素数)は、1/4の学習可能なパラメータでパラメータを節約し、さまざまなアプリケーションで匹敵するパフォーマンスを実現します。
しかし、一つの重要な点は、超複素空間が定義済みの次元(4d、8d、16d)でしか存在しないことである。
これにより、超複素乗算を利用するモデルの柔軟性が制限される。
そこで本論文では,超複素乗算のパラメータ化を提案し,モデルが事前に定義されているかどうかに関わらず,データから乗算ルールを学習できるようにする。
その結果,hamilton 製品を利用するだけでなく,任意の nd hypercomplex 空間での操作を学習し,完全連結層に比べて任意に 1/n$ の学習可能なパラメータを用いたアーキテクチャの柔軟性が向上した。
自然言語推論, 機械翻訳, テキストスタイル変換, および対象動詞合意に対するLSTMおよびTransformerモデルの適用実験は, 提案手法のアーキテクチャ的柔軟性と有効性を示すものである。
関連論文リスト
- A Hyper-Transformer model for Controllable Pareto Front Learning with
Split Feasibility Constraints [2.07180164747172]
SFCを用いたCPFL用超変圧器(Hyper-Trans)モデルを開発した。
計算実験において,Hyper-TransモデルによりMED誤差がHyper-MLPモデルよりも小さくなることを示す。
論文 参考訳(メタデータ) (2024-02-04T10:21:03Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for
Segment Anything Model [86.41316628084464]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。
数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。
LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文 参考訳(メタデータ) (2023-01-30T04:58:40Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - Lightweight Convolutional Neural Networks By Hypercomplex
Parameterization [10.420215908252425]
超複素畳み込み層のパラメータ化を定義し、軽量で効率的な大規模畳み込みモデルを開発する。
提案手法は,データから直接,畳み込みルールとフィルタ組織を把握している。
様々な画像データセットとオーディオデータセットで実験を行うことにより、このアプローチの複数のドメインに対する汎用性を実証する。
論文 参考訳(メタデータ) (2021-10-08T14:57:19Z) - HyperNP: Interactive Visual Exploration of Multidimensional Projection
Hyperparameters [61.354362652006834]
HyperNPは、ニューラルネットワーク近似をトレーニングすることで、プロジェクションメソッドをリアルタイムにインタラクティブに探索できるスケーラブルな方法である。
我々は3つのデータセット間でのHyperNPの性能を,性能と速度の観点から評価した。
論文 参考訳(メタデータ) (2021-06-25T17:28:14Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - A General Framework for Hypercomplex-valued Extreme Learning Machines [2.055949720959582]
本稿では,汎用超複素代数上での極端学習機械(ELM)の枠組みを確立することを目的とする。
実数値線形代数演算によりこれらの代数を演算する枠組みを示す。
実験は、高次元データを扱うための超複素値elmの優れた性能を強調する。
論文 参考訳(メタデータ) (2021-01-15T15:22:05Z) - DS-FACTO: Doubly Separable Factorization Machines [4.281959480566438]
因子化マシン(FM)は、線形モデルにより表現力を加えるために、特徴間の高次相互作用を含む強力なモデルのクラスである。
ペアワイズ機能に低ランク表現を使用するにもかかわらず、大規模な実世界のデータセットにファクタライズマシンを使用することのメモリオーバーヘッドは禁じられるほど高い。
単一マシンで動作する従来のFMアルゴリズムでは,このスケールを処理できないため,クラスタ間で計算を並列化する分散アルゴリズムは避けられない。
論文 参考訳(メタデータ) (2020-04-29T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。