論文の概要: Exploring the Space of Key-Value-Query Models with Intention
- arxiv url: http://arxiv.org/abs/2305.10203v1
- Date: Wed, 17 May 2023 13:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:47:55.068928
- Title: Exploring the Space of Key-Value-Query Models with Intention
- Title(参考訳): キーバリュークエリーモデルの空間を意図した探索
- Authors: Marta Garnelo, Wojciech Marian Czarnecki
- Abstract要約: Attentionの2つの重要なコンポーネントは、入力の構造(キー、値、クエリで構成される)と、これら3つを組み合わせる計算である。
KVQ(Keys-Values-Queries)空間と呼ぶ。
我々のゴールは、注意が効率的に近似できないKVQ空間に他の積み重ね可能なモデルが存在するかどうかを決定することである。
- 参考スコア(独自算出の注目度): 8.585795909956726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based models have been a key element of many recent breakthroughs
in deep learning. Two key components of Attention are the structure of its
input (which consists of keys, values and queries) and the computations by
which these three are combined. In this paper we explore the space of models
that share said input structure but are not restricted to the computations of
Attention. We refer to this space as Keys-Values-Queries (KVQ) Space. Our goal
is to determine whether there are any other stackable models in KVQ Space that
Attention cannot efficiently approximate, which we can implement with our
current deep learning toolbox and that solve problems that are interesting to
the community. Maybe surprisingly, the solution to the standard least squares
problem satisfies these properties. A neural network module that is able to
compute this solution not only enriches the set of computations that a neural
network can represent but is also provably a strict generalisation of Linear
Attention. Even more surprisingly the computational complexity of this module
is exactly the same as that of Attention, making it a suitable drop in
replacement. With this novel connection between classical machine learning
(least squares) and modern deep learning (Attention) established we justify a
variation of our model which generalises regular Attention in the same way.
Both new modules are put to the test an a wide spectrum of tasks ranging from
few-shot learning to policy distillation that confirm their real-worlds
applicability.
- Abstract(参考訳): 注意に基づくモデルは、ディープラーニングにおける最近の多くのブレークスルーの重要な要素である。
Attentionの2つの重要なコンポーネントは、入力の構造(キー、値、クエリで構成される)と、これら3つを組み合わせる計算である。
本稿では、入力構造を共有するが、注意の計算に制限されないモデルの空間について検討する。
この空間をkvq(keys-values-queries)空間と呼ぶ。
我々の目標は、kvq空間に、注意を効率的に近似できない他のスタック可能なモデルがあるか、現在のディープラーニングツールボックスで実装可能か、コミュニティにとって興味深い問題を解決するかを決定することです。
おそらく、標準最小二乗問題の解はこれらの性質を満たす。
この解を計算可能なニューラルネットワークモジュールは、ニューラルネットワークが表現できる計算の集合を豊かにするだけでなく、線形注意の厳密な一般化も実現可能である。
さらに驚くべきことに、このモジュールの計算上の複雑さは、Attentionの計算量とまったく同じであり、置換に適している。
古典的機械学習(Last Squares)と近代的ディープラーニング(Attention)の新たな結びつきにより、我々は、通常の注意を同じ方法で一般化するモデルのバリエーションを正当化する。
どちらのモジュールも、実世界の適用性を確認するための、最小限の学習からポリシー蒸留まで、幅広いタスクをテストに投入される。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Class incremental learning with probability dampening and cascaded gated classifier [4.285597067389559]
本稿では, Margin Dampening と Cascaded Scaling という新たな漸進正規化手法を提案する。
1つ目は、ソフト制約と知識蒸留のアプローチを組み合わせて、過去の知識を保存し、新しいパターンを忘れることを可能にします。
提案手法は,複数のベンチマークにおいて,確立されたベースラインで良好に動作することを示す。
論文 参考訳(メタデータ) (2024-02-02T09:33:07Z) - Learning Structure-from-Motion with Graph Attention Networks [23.87562683118926]
本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。
本研究では,複数のビューにまたがって検出された2Dキーポイントを入力とし,対応するカメラポーズと3Dキーポイント座標を出力するモデルを学習する。
本モデルでは,SfM固有のプリミティブを学習するために,グラフニューラルネットワークを利用する。
論文 参考訳(メタデータ) (2023-08-30T12:13:13Z) - Modular Neural Network Approaches for Surgical Image Recognition [0.0]
本稿では,DCSS不安定性分類のためのモジュール型学習の異なるアーキテクチャを導入,評価する。
実験の結果,モジュール型学習は非モジュール型システムと比較して性能が向上することがわかった。
第2部では,肩関節鏡画像への自己訓練によるデータラベリングとセグメンテーションのアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-17T22:28:16Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Unravelling Small Sample Size Problems in the Deep Learning World [69.82853912238173]
筆者らはまず,アルゴリズムが動作空間に応じて分離される小さなサンプルサイズ問題に対するディープラーニングアルゴリズムのレビューを行う。
第2に,特徴マップの最も識別性の高い部分からグローバル情報を抽出することに焦点を当てた動的注意プーリング手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T13:35:49Z) - A new nature inspired modularity function adapted for unsupervised
learning involving spatially embedded networks: A comparative analysis [0.0]
教師なしの機械学習手法は、多くの伝統的なエンジニアリング分野において非常に役立つ。
新たに開発したモジュラリティ関数の性能を,よく知られたモジュラリティ関数と比較した。
本稿では,本手法が競合する手法よりもはるかに優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-18T04:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。