論文の概要: Overcoming a Theoretical Limitation of Self-Attention
- arxiv url: http://arxiv.org/abs/2202.12172v1
- Date: Thu, 24 Feb 2022 16:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:21:45.795427
- Title: Overcoming a Theoretical Limitation of Self-Attention
- Title(参考訳): 自尊心の理論的限界を克服する
- Authors: David Chiang and Peter Cholak
- Abstract要約: Hahn氏は、単一の入力シンボルに依存する言語では、トランスフォーマーの分類決定は信頼性が低下することを示している。
奇数 1 のビット文字列の言語 PARITY と 1 から始まるビット文字列の言語 FIRST の2つの言語を用いて、この制限について検討する。
- 参考スコア(独自算出の注目度): 20.539191533339427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although transformers are remarkably effective for many tasks, there are some
surprisingly easy-looking regular languages that they struggle with. Hahn shows
that for languages where acceptance depends on a single input symbol, a
transformer's classification decisions become less and less confident (that is,
with cross-entropy approaching 1 bit per string) as input strings get longer
and longer. We examine this limitation using two languages: PARITY, the
language of bit strings with an odd number of 1s, and FIRST, the language of
bit strings starting with a 1. We demonstrate three ways of overcoming the
limitation suggested by Hahn's lemma. First, we settle an open question by
constructing a transformer that recognizes PARITY with perfect accuracy, and
similarly for FIRST. Second, we use layer normalization to bring the
cross-entropy of both models arbitrarily close to zero. Third, when
transformers need to focus on a single position, as for FIRST, we find that
they can fail to generalize to longer strings; we offer a simple remedy to this
problem that also improves length generalization in machine translation.
- Abstract(参考訳): トランスフォーマーは多くのタスクに非常に有効であるが、彼らが苦労している驚くほど簡単な正規言語もある。
ハーンによれば、単一の入力シンボルに依存する言語では、入力文字列が長くなるにつれて、トランスフォーマーの分類決定が自信を減らし(つまり、クロスエントロピーが1ビットに近づく)、より長くなる。
この制限を2つの言語、パリティ(parity)、奇数 1 のビット文字列(bit string)、および 1 から始まるビット文字列(bit string)の言語を用いて検討する。
ハーンの補題が示唆する制限を克服する3つの方法を示す。
まず、完全精度でPARITYを認識する変換器を構築し、同様にFIRSTについても解決する。
第二に, 層正規化を用いて, 両モデルの交叉エントロピーを任意に0に近づける。
第3に、変換器がFIRSTのように単一の位置に集中する必要がある場合、より長い文字列に一般化できないことが判明する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Extracting Finite State Machines from Transformers [0.3069335774032178]
機械的解釈可能性の観点から正規言語で訓練された変圧器の訓練可能性について検討する。
有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。
機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。
論文 参考訳(メタデータ) (2024-10-08T13:43:50Z) - Transformers Can Achieve Length Generalization But Not Robustly [76.06308648699357]
長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。
標準変換器が入力長の2.5倍のシーケンス長に外挿できることを初めて示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:29Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - On Parsing as Tagging [66.31276017088477]
そこで我々は,現在最先端の選挙区タグであるテトラタグを減らして,シフト-リデュース解析を行う方法を示す。
我々は、線形化器、学習者、復号器の異なる選択でタグ付けパイプラインの分類を実証的に評価する。
論文 参考訳(メタデータ) (2022-11-14T13:37:07Z) - Diagnosing Transformers in Task-Oriented Semantic Parsing [3.5788754401889022]
本稿では,BARTとXLM-Rの2つの意味解析手法について検討する。
トランスフォーマーベースは、意図やスロットの曖昧さに苦しむが、驚くべきことに、構文的に有能なフレームの生成にも苦労する。
トランスフォーマーベースのスパンは、フレームが正しいか間違っているかを示す十分な指標を提供するので、プロダクション環境でのデプロイが容易になります。
論文 参考訳(メタデータ) (2021-05-27T23:08:53Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。