論文の概要: Beyond Fully-Connected Layers with Quaternions: Parameterization of
Hypercomplex Multiplications with $1/n$ Parameters
- arxiv url: http://arxiv.org/abs/2102.08597v1
- Date: Wed, 17 Feb 2021 06:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:53:18.621372
- Title: Beyond Fully-Connected Layers with Quaternions: Parameterization of
Hypercomplex Multiplications with $1/n$ Parameters
- Title(参考訳): 四元数をもつ完全連結層を超えて:1/n$パラメータを持つ超複素乗算のパラメータ化
- Authors: Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung
Hui, Jie Fu
- Abstract要約: モデルが事前に定義されているかどうかにかかわらず、データから乗算ルールを学習できるように、ハイパーコンプレックス乗算のパラメータ化を提案する。
我々の手法はハミルトン積を仮定するだけでなく、任意の nD 超複素空間上での操作も学んでいる。
- 参考スコア(独自算出の注目度): 71.09633069060342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have demonstrated reasonable success of representation learning
in hypercomplex space. Specifically, "fully-connected layers with Quaternions"
(4D hypercomplex numbers), which replace real-valued matrix multiplications in
fully-connected layers with Hamilton products of Quaternions, both enjoy
parameter savings with only 1/4 learnable parameters and achieve comparable
performance in various applications. However, one key caveat is that
hypercomplex space only exists at very few predefined dimensions (4D, 8D, and
16D). This restricts the flexibility of models that leverage hypercomplex
multiplications. To this end, we propose parameterizing hypercomplex
multiplications, allowing models to learn multiplication rules from data
regardless of whether such rules are predefined. As a result, our method not
only subsumes the Hamilton product, but also learns to operate on any arbitrary
nD hypercomplex space, providing more architectural flexibility using
arbitrarily $1/n$ learnable parameters compared with the fully-connected layer
counterpart. Experiments of applications to the LSTM and Transformer models on
natural language inference, machine translation, text style transfer, and
subject verb agreement demonstrate architectural flexibility and effectiveness
of the proposed approach.
- Abstract(参考訳): 最近の研究は、超複素空間における表現学習の合理的な成功を示している。
具体的には、フルコネクテッド層における実値行列乗算をクォータニオンのハミルトン積に置き換える「クォータニオン付きフルコネクテッド層」(4次元超複素数)は、1/4の学習可能なパラメータでパラメータを節約し、さまざまなアプリケーションで匹敵するパフォーマンスを実現します。
しかし、一つの重要な点は、超複素空間が定義済みの次元(4d、8d、16d)でしか存在しないことである。
これにより、超複素乗算を利用するモデルの柔軟性が制限される。
そこで本論文では,超複素乗算のパラメータ化を提案し,モデルが事前に定義されているかどうかに関わらず,データから乗算ルールを学習できるようにする。
その結果,hamilton 製品を利用するだけでなく,任意の nd hypercomplex 空間での操作を学習し,完全連結層に比べて任意に 1/n$ の学習可能なパラメータを用いたアーキテクチャの柔軟性が向上した。
自然言語推論, 機械翻訳, テキストスタイル変換, および対象動詞合意に対するLSTMおよびTransformerモデルの適用実験は, 提案手法のアーキテクチャ的柔軟性と有効性を示すものである。
関連論文リスト
- Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering [5.016335384639901]
AVQA(Audio-Visual Question Answering)のマルチモーダル入力により,特徴抽出と融合処理がより困難になる。
我々は、双曲幾何学と状態空間モデルの利点を統合するために、構造化双曲状態空間モデル(SHMamba: Structured Hyperbolic State Space Model)を提案する。
提案手法は,現行のすべての主要な手法の優越性を実証し,実用的なアプリケーションシナリオに適した方法である。
論文 参考訳(メタデータ) (2024-06-14T08:43:31Z) - A Hyper-Transformer model for Controllable Pareto Front Learning with
Split Feasibility Constraints [2.07180164747172]
SFCを用いたCPFL用超変圧器(Hyper-Trans)モデルを開発した。
計算実験において,Hyper-TransモデルによりMED誤差がHyper-MLPモデルよりも小さくなることを示す。
論文 参考訳(メタデータ) (2024-02-04T10:21:03Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。
数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。
LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文 参考訳(メタデータ) (2023-01-30T04:58:40Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - Lightweight Convolutional Neural Networks By Hypercomplex
Parameterization [10.420215908252425]
超複素畳み込み層のパラメータ化を定義し、軽量で効率的な大規模畳み込みモデルを開発する。
提案手法は,データから直接,畳み込みルールとフィルタ組織を把握している。
様々な画像データセットとオーディオデータセットで実験を行うことにより、このアプローチの複数のドメインに対する汎用性を実証する。
論文 参考訳(メタデータ) (2021-10-08T14:57:19Z) - HyperNP: Interactive Visual Exploration of Multidimensional Projection
Hyperparameters [61.354362652006834]
HyperNPは、ニューラルネットワーク近似をトレーニングすることで、プロジェクションメソッドをリアルタイムにインタラクティブに探索できるスケーラブルな方法である。
我々は3つのデータセット間でのHyperNPの性能を,性能と速度の観点から評価した。
論文 参考訳(メタデータ) (2021-06-25T17:28:14Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z) - A General Framework for Hypercomplex-valued Extreme Learning Machines [2.055949720959582]
本稿では,汎用超複素代数上での極端学習機械(ELM)の枠組みを確立することを目的とする。
実数値線形代数演算によりこれらの代数を演算する枠組みを示す。
実験は、高次元データを扱うための超複素値elmの優れた性能を強調する。
論文 参考訳(メタデータ) (2021-01-15T15:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。