論文の概要: Matrix Is All You Need
- arxiv url: http://arxiv.org/abs/2506.01966v1
- Date: Sun, 11 May 2025 06:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.637308
- Title: Matrix Is All You Need
- Title(参考訳): Matrixは必要なものすべて
- Authors: Yuzhou Zhu,
- Abstract要約: 本稿では,畳み込み,再帰,自己アテンション操作をスパース行列乗法として適用する統一行列順序フレームワークを提案する。
この研究は、多様なニューラルネットワークアーキテクチャのための数学的に厳密な基質を確立し、原理化されたハードウェア対応ネットワーク設計のための道を開く。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks employ specialized architectures for vision, sequential and language tasks, yet this proliferation obscures their underlying commonalities. We introduce a unified matrix-order framework that casts convolutional, recurrent and self-attention operations as sparse matrix multiplications. Convolution is realized via an upper-triangular weight matrix performing first-order transformations; recurrence emerges from a lower-triangular matrix encoding stepwise updates; attention arises naturally as a third-order tensor factorization. We prove algebraic isomorphism with standard CNN, RNN and Transformer layers under mild assumptions. Empirical evaluations on image classification (MNIST, CIFAR-10/100, Tiny ImageNet), time-series forecasting (ETTh1, Electricity Load Diagrams) and language modeling/classification (AG News, WikiText-2, Penn Treebank) confirm that sparse-matrix formulations match or exceed native model performance while converging in comparable or fewer epochs. By reducing architecture design to sparse pattern selection, our matrix perspective aligns with GPU parallelism and leverages mature algebraic optimization tools. This work establishes a mathematically rigorous substrate for diverse neural architectures and opens avenues for principled, hardware-aware network design.
- Abstract(参考訳): ディープニューラルネットワークは、視覚、シーケンシャル、言語タスクのための特殊なアーキテクチャを採用しているが、この拡散は、その基盤となる共通点を曖昧にする。
本稿では,畳み込み,再帰,自己アテンション操作をスパース行列乗法として適用する統一行列順序フレームワークを提案する。
畳み込みは、一階変換を行う上三角形の重み行列によって実現され、段階的に更新を符号化する下三角形の行列から繰り返しが発生する。
軽度の仮定で標準CNN, RNN, Transformer 層と代数的同型を証明した。
画像分類(MNIST, CIFAR-10/100, Tiny ImageNet)、時系列予測(ETTh1, Electricity Load Diagrams)、言語モデリング/分類(AG News, WikiText-2, Penn Treebank)に関する実証的な評価により、スパース行列の定式化は、同等あるいは少ないエポックに収束しながら、ネイティブモデルの性能と一致しているか、あるいは超えるかを確認した。
アーキテクチャ設計をスパースパターン選択に還元することにより、行列パースペクティブはGPU並列性と整合し、成熟した代数的最適化ツールを活用する。
この研究は、多様なニューラルネットワークアーキテクチャのための数学的に厳密な基質を確立し、原理化されたハードウェア対応ネットワーク設計のための道を開く。
関連論文リスト
- Weight Conditioning for Smooth Optimization of Neural Networks [28.243353447978837]
本稿では,ニューラルネットワークの重み行列に対する新しい正規化手法を提案する。
このアプローチは、ウェイト行列の最小値と最大の特異値の間のギャップを狭くすることを目的としており、より良い条件付き行列をもたらす。
以上の結果から,本手法は競争力だけでなく,文献の既往の重み正規化手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-09-05T11:10:34Z) - Optimal Matrix-Mimetic Tensor Algebras via Variable Projection [0.0]
行列緩和性(Matrix mimeticity)は、テンソルを、行列に類似した乗算、分解、解析が可能な作用素として解釈することから生じる。
我々は、データの事前の知識に頼ることなく、最適線形写像と対応するテンソル表現を学習する。
可変射影型アルゴリズムの変換と収束解析の独創性理論を提供する。
論文 参考訳(メタデータ) (2024-06-11T04:52:23Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - NeoNeXt: Novel neural network operator and architecture based on the patch-wise matrix multiplications [0.0]
本稿では,行列パターンを学習し,入力データに対してパッチワイズ行列乗算を行う新しい基礎演算であるNeoCellを提案する。
提案手法の主な利点は,(1)im2colのような演算を必要としない単純な実装,(2)計算量が少ないこと(特に大規模行列),(3)アップ/ダウンサンプリングの単純で柔軟な実装である。
我々は、ImageNet-1K分類タスクに基づいて、NeoNeXtモデルのファミリーを検証し、競合品質を実現することを示す。
論文 参考訳(メタデータ) (2024-03-17T15:51:21Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - A Deep Generative Model for Matrix Reordering [26.86727566323601]
グラフの様々な行列の並べ替えの潜在空間を学習する生成モデルを開発する。
学習した潜在空間から直感的なユーザインタフェースを構築し、様々な行列の並べ替えのマップを作成する。
本稿では,グラフの行列再順序生成を機械学習モデルで学習する,グラフの行列可視化に対する基本的新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-11T02:55:24Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。