論文の概要: How Can Self-Attention Networks Recognize Dyck-n Languages?
- arxiv url: http://arxiv.org/abs/2010.04303v1
- Date: Fri, 9 Oct 2020 00:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:58:09.099649
- Title: How Can Self-Attention Networks Recognize Dyck-n Languages?
- Title(参考訳): セルフアテンションネットワークはdyck-n言語をどのように認識できるか?
- Authors: Javid Ebrahimi, Dhruv Gelda, Wei Zhang
- Abstract要約: 我々は自己注意(SA)ネットワークを持つDyck-n(mathcalD_n$)言語の認識に焦点を当てた。
1つは開始記号 (SA$+$) と、もう1つは (SA$-$) である。
mathcalD$の場合、SA$-$は長い列で完全に分解されるのに対し、SA$+$の精度は58.82$%$である。
- 参考スコア(独自算出の注目度): 6.352805473639606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the recognition of Dyck-n ($\mathcal{D}_n$) languages with
self-attention (SA) networks, which has been deemed to be a difficult task for
these networks. We compare the performance of two variants of SA, one with a
starting symbol (SA$^+$) and one without (SA$^-$). Our results show that SA$^+$
is able to generalize to longer sequences and deeper dependencies. For
$\mathcal{D}_2$, we find that SA$^-$ completely breaks down on long sequences
whereas the accuracy of SA$^+$ is 58.82$\%$. We find attention maps learned by
$\text{SA}{^+}$ to be amenable to interpretation and compatible with a
stack-based language recognizer. Surprisingly, the performance of SA networks
is at par with LSTMs, which provides evidence on the ability of SA to learn
hierarchies without recursion.
- Abstract(参考訳): dyck-n (\mathcal{d}_n$) 言語とセルフアテンション (sa) ネットワークの認識に焦点を当てている。
本稿では,SA の2つの変種と開始記号 (SA$^+$) と0の変種 (SA$^-$) を比較した。
その結果、sa$^+$はより長いシーケンスとより深い依存関係に一般化できることがわかった。
しかし、$\mathcal{d}_2$ に対して、sa$^-$ は長い列で完全に分解するのに対し、sa$^+$ の精度は58.82$\%$である。
我々は、$\text{SA}{^+}$で学習した注目マップを解釈可能で、スタックベースの言語認識器と互換性がある。
驚くべきことに、SAネットワークの性能はLSTMと同等であり、SAが再帰せずに階層を学習できることの証拠となる。
関連論文リスト
- Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Towards Understanding Why FixMatch Generalizes Better Than Supervised Learning [97.1805039692731]
半教師付き学習(SSL)は、教師付き学習(SL)よりも大幅に一般化されている。
ディープニューラルネットワーク(DNN)に適用したFixMatchライクSSLで観測されたテスト精度向上のための最初の理論的正当性を示す。
分析フレームワークはFlexMatch、FreeMatch、Dash、SoftMatchといった他のFixMatchライクなSSLメソッドにも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-15T02:47:57Z) - Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning [0.9374652839580183]
ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。
本稿では,SAEの学習方法であるエンドツーエンドのスパース辞書学習を提案する。
我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。
論文 参考訳(メタデータ) (2024-05-17T17:03:46Z) - Efficient Algorithms for Recognizing Weighted Tree-Adjoining Languages [104.90415092306219]
4つの形式は、ツリー随伴文法(TAG)、線形指数文法(LIG)、プッシュダウン随伴オートマトン(PAA)、組込みプッシュダウンオートマトン(EPDA)に相当する。
我々は,文字列の導出量(文字列のすべてのオートマトン重み)と全導出量(全ての導出量重み)を計算するための新しいアルゴリズムを設計する。
EPDA の場合、我々のアルゴリズムは、$mathcalO(|Gamma|2)$ および $ の因子による Alonso et al. (2001) のアルゴリズムよりも空間効率と時間効率が良い。
論文 参考訳(メタデータ) (2023-10-23T18:26:00Z) - Most Neural Networks Are Almost Learnable [52.40331776572531]
固定された$epsilon>0$とdeep $i$に対して、深さ$i$のランダムなXavierネットワークを学習するポリ時間アルゴリズムが存在することを示す。
このアルゴリズムは時間とサンプルの複雑さが$(bard)mathrmpoly(epsilon-1)$であり、$bar d$はネットワークのサイズである。
シグモイドやReLU様の活性化の場合、境界は$(bard)mathrmpolylog(eps)に改善できる。
論文 参考訳(メタデータ) (2023-05-25T22:27:42Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Minimum Description Length Recurrent Neural Networks [1.911678487931003]
ニューラルネットワークをトレーニングして、最小記述長(Minimum Description Length)スコアを最適化し、ネットワークの複雑さとタスクの精度のバランスをとる。
この目的関数で訓練されたネットワークは、カウントなどのメモリ上の課題を含むマスタータスクをマスターする。
これらの学習者は、例えば$anbn$, $anbncn$, $anb2n$, $anbmcn+m$の文法をマスターし、追加を行う。
論文 参考訳(メタデータ) (2021-10-31T21:43:31Z) - Self-Attention Networks Can Process Bounded Hierarchical Languages [24.75432474021856]
自己アテンションネットワークが$mathsfDyck_k, D$, $mathsfDyck_k, D$を処理できることを証明する。
実験により、$mathsfDyck_kでトレーニングされた自己注意ネットワークは、ほぼ完全な精度で、より長い入力に一般化されることが示された。
論文 参考訳(メタデータ) (2021-05-24T06:42:58Z) - RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。
Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。
明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文 参考訳(メタデータ) (2020-10-15T04:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。