論文の概要: Kronecker Attention Networks
- arxiv url: http://arxiv.org/abs/2007.08442v1
- Date: Thu, 16 Jul 2020 16:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 22:32:19.826666
- Title: Kronecker Attention Networks
- Title(参考訳): クロネッカー・アテンション・ネットワーク
- Authors: Hongyang Gao, Zhengyang Wang, Shuiwang Ji
- Abstract要約: 我々は,高次テンソルデータを直接操作するKronecker attention operator (KAOs) を開発した。
その結果,本手法は必要な計算資源の量を数百倍に削減できることがわかった。
- 参考スコア(独自算出の注目度): 69.22257624495899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention operators have been applied on both 1-D data like texts and
higher-order data such as images and videos. Use of attention operators on
high-order data requires flattening of the spatial or spatial-temporal
dimensions into a vector, which is assumed to follow a multivariate normal
distribution. This not only incurs excessive requirements on computational
resources, but also fails to preserve structures in data. In this work, we
propose to avoid flattening by assuming the data follow matrix-variate normal
distributions. Based on this new view, we develop Kronecker attention operators
(KAOs) that operate on high-order tensor data directly. More importantly, the
proposed KAOs lead to dramatic reductions in computational resources.
Experimental results show that our methods reduce the amount of required
computational resources by a factor of hundreds, with larger factors for
higher-dimensional and higher-order data. Results also show that networks with
KAOs outperform models without attention, while achieving competitive
performance as those with original attention operators.
- Abstract(参考訳): 注意演算子はテキストのような1次元データと画像やビデオのような高次データの両方に適用されている。
高次データに対する注意演算子の使用には、空間的あるいは時空間的な次元の平坦化が必要であり、これは多変量正規分布に従うと仮定される。
これは計算資源の過剰な要求を生じさせるだけでなく、データ構造を保存できない。
本研究では,行列変量正規分布に従えばフラット化を回避することを提案する。
この新たな視点に基づいて,高次テンソルデータを直接操作するKronecker attention operator (KAOs) を開発した。
さらに重要なことに、提案されたKAOは計算資源の劇的な削減につながる。
実験の結果,高次元データと高次データでは,必要な計算資源の量を数百倍に削減できることがわかった。
また,kaosを用いたネットワークは,元々の注意操作者に比べて競争性能を保ちながら,注意力のないモデルよりも優れていた。
関連論文リスト
- Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Adaptive Random Feature Regularization on Fine-tuning Deep Neural Networks [12.992733141210158]
適応ランダム特徴正規化(AdaRand)と呼ばれる単純な手法を提案する。
AdaRandは、訓練モデルの特徴抽出器が、補助的なソース情報や適切な計算コストを伴わずに、下流の分類タスクのための特徴ベクトルの分布を適応的に変更するのに役立つ。
実験の結果、AdaRandは他の微調整正規化よりも優れており、補助的な情報源情報と重い計算コストが要求されることがわかった。
論文 参考訳(メタデータ) (2024-03-15T08:26:59Z) - Gradient-Based Spectral Embeddings of Random Dot Product Graphs [7.612218105739107]
本稿では,RDPG (Random Dot Product Graph) の組込み問題の解法について述べる。
そこで我々は, 結果の多様体に対して, 実現可能な新しい最適化手法を開発した。
当社のオープンソースアルゴリズムの実装はスケーラブルで、エッジデータに欠ける堅牢さと異なり、ストリーミンググラフからゆっくりと、潜伏した位置を追跡することができます。
論文 参考訳(メタデータ) (2023-07-25T21:09:55Z) - Graph Kernel Neural Networks [53.91024360329517]
本稿では、グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて、標準畳み込み演算子をグラフ領域に拡張することを提案する。
これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。
私たちのアーキテクチャでは,任意の種類のグラフカーネルをプラグインすることが可能です。
論文 参考訳(メタデータ) (2021-12-14T14:48:08Z) - Unsupervised Finetuning [80.58625921631506]
ソースデータとターゲットデータを組み合わせて教師なしの微調整を行うための2つの戦略を提案する。
前者の戦略の動機は、事前訓練された表現空間を占有するために、少量のソースデータを追加することである。
後者の戦略の動機は、データ密度を高め、よりコンパクトな表現を学ぶことにある。
論文 参考訳(メタデータ) (2021-10-18T17:57:05Z) - Augmented Tensor Decomposition with Stochastic Optimization [46.16865811396394]
実世界のテンソルデータは、通常高次で、数百万から数十億のエントリを持つ大きな次元を持つ。
テンソル全体を従来のアルゴリズムで分解するのは高価である。
本稿では、データ拡張を効果的に取り入れて下流の分類を向上する拡張テンソル分解を提案する。
論文 参考訳(メタデータ) (2021-06-15T06:29:05Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。