論文の概要: How Can Self-Attention Networks Recognize Dyck-n Languages?
- arxiv url: http://arxiv.org/abs/2010.04303v1
- Date: Fri, 9 Oct 2020 00:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:58:09.099649
- Title: How Can Self-Attention Networks Recognize Dyck-n Languages?
- Title(参考訳): セルフアテンションネットワークはdyck-n言語をどのように認識できるか?
- Authors: Javid Ebrahimi, Dhruv Gelda, Wei Zhang
- Abstract要約: 我々は自己注意(SA)ネットワークを持つDyck-n(mathcalD_n$)言語の認識に焦点を当てた。
1つは開始記号 (SA$+$) と、もう1つは (SA$-$) である。
mathcalD$の場合、SA$-$は長い列で完全に分解されるのに対し、SA$+$の精度は58.82$%$である。
- 参考スコア(独自算出の注目度): 6.352805473639606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the recognition of Dyck-n ($\mathcal{D}_n$) languages with
self-attention (SA) networks, which has been deemed to be a difficult task for
these networks. We compare the performance of two variants of SA, one with a
starting symbol (SA$^+$) and one without (SA$^-$). Our results show that SA$^+$
is able to generalize to longer sequences and deeper dependencies. For
$\mathcal{D}_2$, we find that SA$^-$ completely breaks down on long sequences
whereas the accuracy of SA$^+$ is 58.82$\%$. We find attention maps learned by
$\text{SA}{^+}$ to be amenable to interpretation and compatible with a
stack-based language recognizer. Surprisingly, the performance of SA networks
is at par with LSTMs, which provides evidence on the ability of SA to learn
hierarchies without recursion.
- Abstract(参考訳): dyck-n (\mathcal{d}_n$) 言語とセルフアテンション (sa) ネットワークの認識に焦点を当てている。
本稿では,SA の2つの変種と開始記号 (SA$^+$) と0の変種 (SA$^-$) を比較した。
その結果、sa$^+$はより長いシーケンスとより深い依存関係に一般化できることがわかった。
しかし、$\mathcal{d}_2$ に対して、sa$^-$ は長い列で完全に分解するのに対し、sa$^+$ の精度は58.82$\%$である。
我々は、$\text{SA}{^+}$で学習した注目マップを解釈可能で、スタックベースの言語認識器と互換性がある。
驚くべきことに、SAネットワークの性能はLSTMと同等であり、SAが再帰せずに階層を学習できることの証拠となる。
関連論文リスト
- Efficient Algorithms for Recognizing Weighted Tree-Adjoining Languages [104.90415092306219]
4つの形式は、ツリー随伴文法(TAG)、線形指数文法(LIG)、プッシュダウン随伴オートマトン(PAA)、組込みプッシュダウンオートマトン(EPDA)に相当する。
我々は,文字列の導出量(文字列のすべてのオートマトン重み)と全導出量(全ての導出量重み)を計算するための新しいアルゴリズムを設計する。
EPDA の場合、我々のアルゴリズムは、$mathcalO(|Gamma|2)$ および $ の因子による Alonso et al. (2001) のアルゴリズムよりも空間効率と時間効率が良い。
論文 参考訳(メタデータ) (2023-10-23T18:26:00Z) - Most Neural Networks Are Almost Learnable [52.40331776572531]
固定された$epsilon>0$とdeep $i$に対して、深さ$i$のランダムなXavierネットワークを学習するポリ時間アルゴリズムが存在することを示す。
このアルゴリズムは時間とサンプルの複雑さが$(bard)mathrmpoly(epsilon-1)$であり、$bar d$はネットワークのサイズである。
シグモイドやReLU様の活性化の場合、境界は$(bard)mathrmpolylog(eps)に改善できる。
論文 参考訳(メタデータ) (2023-05-25T22:27:42Z) - On Enhancing Expressive Power via Compositions of Single Fixed-Size ReLU
Network [11.66117393949175]
1つの固定サイズReLUネットワークの繰り返し構成が驚くほどの表現力を示すことを示す。
この結果から, 動的系を経由した連続深度ネットワークは, 動的関数が時間非依存であっても, 膨大な近似能力を有することが明らかとなった。
論文 参考訳(メタデータ) (2023-01-29T04:12:58Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Minimum Description Length Recurrent Neural Networks [1.911678487931003]
ニューラルネットワークをトレーニングして、最小記述長(Minimum Description Length)スコアを最適化し、ネットワークの複雑さとタスクの精度のバランスをとる。
この目的関数で訓練されたネットワークは、カウントなどのメモリ上の課題を含むマスタータスクをマスターする。
これらの学習者は、例えば$anbn$, $anbncn$, $anb2n$, $anbmcn+m$の文法をマスターし、追加を行う。
論文 参考訳(メタデータ) (2021-10-31T21:43:31Z) - Self-Attention Networks Can Process Bounded Hierarchical Languages [24.75432474021856]
自己アテンションネットワークが$mathsfDyck_k, D$, $mathsfDyck_k, D$を処理できることを証明する。
実験により、$mathsfDyck_kでトレーニングされた自己注意ネットワークは、ほぼ完全な精度で、より長い入力に一般化されることが示された。
論文 参考訳(メタデータ) (2021-05-24T06:42:58Z) - Agnostic learning with unknown utilities [70.14742836006042]
現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。
我々はこれを未知のユーティリティによる不可知学習として研究する。
サンプルされた点のみのユーティリティを推定することで、よく一般化した決定関数を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-17T08:22:04Z) - RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。
Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。
明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文 参考訳(メタデータ) (2020-10-15T04:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。