論文の概要: Deep Tensor Network
- arxiv url: http://arxiv.org/abs/2311.11091v3
- Date: Sun, 31 Aug 2025 04:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:51.928799
- Title: Deep Tensor Network
- Title(参考訳): 深部テンソルネットワーク
- Authors: Yifan Zhang,
- Abstract要約: 我々は、テンソル代数の表現力とニューラルネットワーク設計を統一することで、注意を再構築する新しいアーキテクチャフレームワークであるDeep Networkを紹介する。
我々のアプローチは、従来のドット積の注意とその後の線形時間近似を超越して、高次統計依存を捉える。
- 参考スコア(独自算出の注目度): 9.910562011343009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of dot-product attention introduced in Transformer remains a fundamental bottleneck impeding the progress of foundation models toward unbounded context lengths. Addressing this challenge, we introduce the Deep Tensor Network, a new architectural framework that fundamentally reformulates attention by unifying the expressive power of tensor algebra with neural network design. Our approach moves beyond both conventional dot-product attention and subsequent linear-time approximations to capture higher-order statistical dependencies. We introduce two core operators derived from this framework: \emph{Tensor Attention}, which models complex token-mixing via data-dependent polynomial kernels, and Tensor Interaction, a novel mechanism for adaptive channel-mixing. We demonstrate that these operators are powered by second-order summaries that entirely bypass the formation of $n \times n$ matrices, enabling a causality-preserving streaming implementation with $O(d^2)$ per-token updates and $O(d^2)$ state. This efficiency rivals that of modern State Space Models while retaining an attention-like formulation. The Deep Tensor Network thus provides a principled and powerful new class of building blocks for next-generation sequence models, bridging the gap between scalable computation and rich, expressive interaction modeling.
- Abstract(参考訳): Transformerで導入されたドット積の注意の二次的複雑さは、基礎モデルの非有界文脈長への進行を妨げる基本的なボトルネックのままである。
この課題に対処するために、ニューラルネットワーク設計でテンソル代数の表現力を統合することにより、注意を根本的に再構築する新しいアーキテクチャフレームワークであるDeep Tensor Networkを導入する。
我々のアプローチは、従来のドット積の注意とその後の線形時間近似を超越して、高次統計依存を捉える。
データ依存型多項式カーネルによる複雑なトークン混合をモデル化する \emph{Tensor Attention} と、適応型チャネル混合の新しいメカニズムである Tensor Interaction という2つのコア演算子を紹介した。
これらの演算子は、$n \times n$ matricesの形成を完全に回避し、$O(d^2)$/token更新と$O(d^2)$状態の因果保存ストリーミング実装を可能にする2次サマリーによって駆動されることを示す。
この効率性は、注意のような定式化を維持しながら、現代のステートスペースモデルに匹敵する。
これにより、Deep Tensor Networkは、スケーラブルな計算とリッチで表現力豊かな相互作用モデリングのギャップを埋める、次世代のシーケンスモデルのための、原則的で強力なビルディングブロックのクラスを提供する。
関連論文リスト
- Survey on Computational Applications of Tensor Network Simulations [0.0]
Reviewは、どのテンソルネットワークに対してどのクラスが提案されているかを明らかにすることを目的としている。
我々は,このレビューを,非専門家による読みやすいテンソルネットワークアプリケーションに関するハイレベルなツアーとして意図している。
論文 参考訳(メタデータ) (2024-08-09T11:46:47Z) - Understanding Deep Learning via Notions of Rank [5.439020425819001]
この論文は、ディープラーニングの理論を発展させる鍵としてランクの概念を提唱している。
特に、勾配に基づくトレーニングは、いくつかのニューラルネットワークアーキテクチャにおいて、低ランクに対する暗黙の正規化を誘導できると確認する。
明示的な正規化スキームとデータ前処理アルゴリズムを設計するための我々の理論の実践的意味を述べる。
論文 参考訳(メタデータ) (2024-08-04T18:47:55Z) - Towards Efficient Deep Spiking Neural Networks Construction with Spiking Activity based Pruning [17.454100169491497]
本稿では,Spking Channel Activity-based (SCA) network pruning frameworkという,畳み込みカーネルの動作レベルに基づく構造化プルーニング手法を提案する。
本手法は, 学習中の畳み込みカーネルの切断・再生によりネットワーク構造を動的に調整し, 現在の目標タスクへの適応性を高める。
論文 参考訳(メタデータ) (2024-06-03T07:44:37Z) - Conditional computation in neural networks: principles and research trends [48.14569369912931]
本稿では,ニューラルネットワークの設計にテクトコンディショナリ計算を適用するという,新たな領域の原理とアイデアを要約する。
特に、入力に条件付きで計算グラフの一部を動的に活性化または非活性化するニューラルネットワークに焦点を当てる。
論文 参考訳(メタデータ) (2024-03-12T11:56:38Z) - Operator Learning Meets Numerical Analysis: Improving Neural Networks
through Iterative Methods [2.226971382808806]
演算子方程式の反復的手法に基づく理論的枠組みを開発する。
拡散モデルやAlphaFoldのような一般的なアーキテクチャは本質的に反復的演算子学習を採用していることを実証する。
本研究の目的は,数値解析から洞察を融合させることにより,ディープラーニングの理解を深めることである。
論文 参考訳(メタデータ) (2023-10-02T20:25:36Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Universal Scaling Laws of Absorbing Phase Transitions in Artificial Deep Neural Networks [0.8932296777085644]
信号伝播ダイナミクスの位相境界付近で動作する従来の人工深層ニューラルネットワークは、カオスのエッジとしても知られ、位相遷移を吸収する普遍的なスケーリング法則を示す。
数値計算の結果,多層パーセプトロンと畳み込みニューラルネットワークはそれぞれ平均フィールドと有向パーコレーションクラスに属していることがわかった。
論文 参考訳(メタデータ) (2023-07-05T13:39:02Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - A Practical Guide to the Numerical Implementation of Tensor Networks I:
Contractions, Decompositions and Gauge Freedom [0.0]
本稿では,テンソルネットワークの手法を数値的に実装するために必要な重要なアイデアとスキルについて概説する。
提案するトピックは、DMRG、TEBD、TRG、PEPS、MERAといった多くの一般的なテンソルネットワークアルゴリズムにおいて重要である。
論文 参考訳(メタデータ) (2022-02-04T14:10:09Z) - Implicit Regularization in Hierarchical Tensor Factorization and Deep
Convolutional Neural Networks [18.377136391055327]
本稿では,階層的テンソル分解における暗黙の正規化を理論的に解析する。
これは、関連する畳み込みネットワークの局所性に対する暗黙の正規化に変換される。
我々の研究は、暗黙の正規化の理論解析を通じてニューラルネットワークを強化する可能性を強調している。
論文 参考訳(メタデータ) (2022-01-27T18:48:30Z) - Defensive Tensorization [113.96183766922393]
本稿では,ネットワークの遅延高次分解を利用した対角防御手法であるテンソル防御手法を提案する。
我々は,標準画像分類ベンチマークにおけるアプローチの有効性を実証的に実証した。
我々は,音声タスクとバイナリネットワークを考慮し,ドメイン間のアプローチと低精度アーキテクチャの汎用性を検証した。
論文 参考訳(メタデータ) (2021-10-26T17:00:16Z) - Learning Structures for Deep Neural Networks [99.8331363309895]
我々は,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用することを提案する。
スパース符号化は出力信号のエントロピーを効果的に最大化できることを示す。
公開画像分類データセットを用いた実験により,提案アルゴリズムでスクラッチから学習した構造を用いて,最も優れた専門家設計構造に匹敵する分類精度が得られることを示した。
論文 参考訳(メタデータ) (2021-05-27T12:27:24Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Investigating the Compositional Structure Of Deep Neural Networks [1.8899300124593645]
本稿では,一方向線形活性化関数の構成構造に基づく新しい理論的枠組みを提案する。
予測ラベルと予測に使用する特定の(線形)変換の両方に関して、入力データのインスタンスを特徴付けることができる。
MNISTデータセットの予備テストでは、ニューラルネットワークの内部表現における類似性に関して、入力インスタンスをグループ化することが可能である。
論文 参考訳(メタデータ) (2020-02-17T14:16:17Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。