Fugu-MT 論文翻訳(概要): Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with $1/n$ Parameters

論文の概要: Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with $1/n$ Parameters

arxiv url: http://arxiv.org/abs/2102.08597v1
Date: Wed, 17 Feb 2021 06:16:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-18 14:53:18.621372
Title: Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with $1/n$ Parameters
Title（参考訳）: 四元数をもつ完全連結層を超えて:1/n$パラメータを持つ超複素乗算のパラメータ化
Authors: Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung Hui, Jie Fu
Abstract要約: モデルが事前に定義されているかどうかにかかわらず、データから乗算ルールを学習できるように、ハイパーコンプレックス乗算のパラメータ化を提案する。我々の手法はハミルトン積を仮定するだけでなく、任意の nD 超複素空間上での操作も学んでいる。
参考スコア（独自算出の注目度）: 71.09633069060342
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works have demonstrated reasonable success of representation learning in hypercomplex space. Specifically, "fully-connected layers with Quaternions" (4D hypercomplex numbers), which replace real-valued matrix multiplications in fully-connected layers with Hamilton products of Quaternions, both enjoy parameter savings with only 1/4 learnable parameters and achieve comparable performance in various applications. However, one key caveat is that hypercomplex space only exists at very few predefined dimensions (4D, 8D, and 16D). This restricts the flexibility of models that leverage hypercomplex multiplications. To this end, we propose parameterizing hypercomplex multiplications, allowing models to learn multiplication rules from data regardless of whether such rules are predefined. As a result, our method not only subsumes the Hamilton product, but also learns to operate on any arbitrary nD hypercomplex space, providing more architectural flexibility using arbitrarily $1/n$ learnable parameters compared with the fully-connected layer counterpart. Experiments of applications to the LSTM and Transformer models on natural language inference, machine translation, text style transfer, and subject verb agreement demonstrate architectural flexibility and effectiveness of the proposed approach.
Abstract（参考訳）: 最近の研究は、超複素空間における表現学習の合理的な成功を示している。具体的には、フルコネクテッド層における実値行列乗算をクォータニオンのハミルトン積に置き換える「クォータニオン付きフルコネクテッド層」(4次元超複素数)は、1/4の学習可能なパラメータでパラメータを節約し、さまざまなアプリケーションで匹敵するパフォーマンスを実現します。しかし、一つの重要な点は、超複素空間が定義済みの次元(4d、8d、16d)でしか存在しないことである。これにより、超複素乗算を利用するモデルの柔軟性が制限される。そこで本論文では,超複素乗算のパラメータ化を提案し,モデルが事前に定義されているかどうかに関わらず,データから乗算ルールを学習できるようにする。その結果,hamilton 製品を利用するだけでなく,任意の nd hypercomplex 空間での操作を学習し,完全連結層に比べて任意に 1/n$ の学習可能なパラメータを用いたアーキテクチャの柔軟性が向上した。自然言語推論, 機械翻訳, テキストスタイル変換, および対象動詞合意に対するLSTMおよびTransformerモデルの適用実験は, 提案手法のアーキテクチャ的柔軟性と有効性を示すものである。

関連論文リスト

Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文参考訳（メタデータ） (2025-04-01T14:36:45Z)
The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系に対するオンライン強化学習のサンプル複雑性について検討した。我々のアルゴリズムは、その単純さ、事前知識を組み込む能力、そして良心的な過渡的行動のために、実際に有用である可能性が高い。
論文参考訳（メタデータ） (2025-01-27T10:01:28Z)
Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文参考訳（メタデータ） (2024-10-17T22:35:50Z)
SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering [5.016335384639901]
AVQA(Audio-Visual Question Answering)のマルチモーダル入力により,特徴抽出と融合処理がより困難になる。我々は、双曲幾何学と状態空間モデルの利点を統合するために、構造化双曲状態空間モデル(SHMamba: Structured Hyperbolic State Space Model)を提案する。提案手法は,現行のすべての主要な手法の優越性を実証し,実用的なアプリケーションシナリオに適した方法である。
論文参考訳（メタデータ） (2024-06-14T08:43:31Z)
A Hyper-Transformer model for Controllable Pareto Front Learning with Split Feasibility Constraints [2.07180164747172]
SFCを用いたCPFL用超変圧器(Hyper-Trans)モデルを開発した。計算実験において,Hyper-TransモデルによりMED誤差がHyper-MLPモデルよりも小さくなることを示す。
論文参考訳（メタデータ） (2024-02-04T10:21:03Z)
Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-28T11:23:34Z)
Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。 LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文参考訳（メタデータ） (2023-01-30T04:58:40Z)
Scalable One-Pass Optimisation of High-Dimensional Weight-Update Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。トレーニングは1回のみであり、再スタートは行わない。また、真の過次性への収束を動機づける議論も提供する。
論文参考訳（メタデータ） (2021-10-20T09:57:57Z)
Lightweight Convolutional Neural Networks By Hypercomplex Parameterization [10.420215908252425]
超複素畳み込み層のパラメータ化を定義し、軽量で効率的な大規模畳み込みモデルを開発する。提案手法は,データから直接,畳み込みルールとフィルタ組織を把握している。様々な画像データセットとオーディオデータセットで実験を行うことにより、このアプローチの複数のドメインに対する汎用性を実証する。
論文参考訳（メタデータ） (2021-10-08T14:57:19Z)
HyperNP: Interactive Visual Exploration of Multidimensional Projection Hyperparameters [61.354362652006834]
HyperNPは、ニューラルネットワーク近似をトレーニングすることで、プロジェクションメソッドをリアルタイムにインタラクティブに探索できるスケーラブルな方法である。我々は3つのデータセット間でのHyperNPの性能を,性能と速度の観点から評価した。
論文参考訳（メタデータ） (2021-06-25T17:28:14Z)
Quaternion Factorization Machines: A Lightweight Solution to Intricate Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文参考訳（メタデータ） (2021-04-05T00:02:36Z)
A General Framework for Hypercomplex-valued Extreme Learning Machines [2.055949720959582]
本稿では,汎用超複素代数上での極端学習機械(ELM)の枠組みを確立することを目的とする。実数値線形代数演算によりこれらの代数を演算する枠組みを示す。実験は、高次元データを扱うための超複素値elmの優れた性能を強調する。
論文参考訳（メタデータ） (2021-01-15T15:22:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。