論文の概要: Causal Transformers Perform Below Chance on Recursive Nested
Constructions, Unlike Humans
- arxiv url: http://arxiv.org/abs/2110.07240v1
- Date: Thu, 14 Oct 2021 09:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 23:21:35.612361
- Title: Causal Transformers Perform Below Chance on Recursive Nested
Constructions, Unlike Humans
- Title(参考訳): 因果トランスフォーマーは、人間と違って再帰的な入れ子構造で確率を下回る
- Authors: Yair Lakretz, Th\'eo Desbordes, Dieuwke Hupkes, Stanislas Dehaene
- Abstract要約: 2種類のネスト構造に対して4種類のトランスフォーマーLMを試験した。
トランスフォーマーは,短範囲の組み込み依存に対してほぼ完璧な性能を実現する。
長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベル以下に急落する。
- 参考スコア(独自算出の注目度): 7.897143833642971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recursive processing is considered a hallmark of human linguistic abilities.
A recent study evaluated recursive processing in recurrent neural language
models (RNN-LMs) and showed that such models perform below chance level on
embedded dependencies within nested constructions -- a prototypical example of
recursion in natural language. Here, we study if state-of-the-art Transformer
LMs do any better. We test four different Transformer LMs on two different
types of nested constructions, which differ in whether the embedded (inner)
dependency is short or long range. We find that Transformers achieve
near-perfect performance on short-range embedded dependencies, significantly
better than previous results reported for RNN-LMs and humans. However, on
long-range embedded dependencies, Transformers' performance sharply drops below
chance level. Remarkably, the addition of only three words to the embedded
dependency caused Transformers to fall from near-perfect to below-chance
performance. Taken together, our results reveal Transformers' shortcoming when
it comes to recursive, structure-based, processing.
- Abstract(参考訳): 再帰処理は人間の言語能力の目印と考えられている。
最近の研究では、recurrent neural language model(rnn-lms)における再帰的処理を評価し、そのようなモデルが入れ子構造内の埋め込み依存性の確率レベル以下で実行されることを示した。
ここでは,最先端のトランスフォーマ lms について検討する。
組込み(インナー)依存性が短距離か長距離かで異なる2種類の入れ子構造で4種類のトランスフォーマー lms をテストした。
RNN-LM や人間に対して報告された結果に比べて,トランスフォーマーは短距離の組込み依存に対してほぼ完璧な性能が得られることが判明した。
しかし、長距離の組み込み依存関係では、Transformerのパフォーマンスは確率レベルを下回ります。
注目すべきは、組み込み依存性にたった3つの単語を追加することで、Transformerがほぼ完璧から低いパフォーマンスに落ちてしまうことだ。
その結果,再帰的な構造に基づく処理に関して,トランスフォーマーの欠点が明らかになった。
関連論文リスト
- Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent [26.764893400499354]
線形ループ変換器は、コンテキスト内学習において、多段階勾配勾配を効率よく実装できることを示す。
この結果から,入力データが一定条件数である場合,$n = O(d)$であれば,線形ループ変換器の誤差は小さくなることがわかった。
論文 参考訳(メタデータ) (2024-10-15T04:44:23Z) - Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Tree-Planted Transformers: Unidirectional Transformer Language Models with Implicit Syntactic Supervision [4.665860995185884]
樹木の植え付けという新しい手法を提案する。
構文構造を明示的に生成する代わりに、一方向トランスフォーマーLMの注目重みに木を「移植」する。
Tree-Planted Transformerは、基礎となるTransformer LMの推論効率を変更することなく、SLMからトレーニング効率を継承する。
論文 参考訳(メタデータ) (2024-02-20T03:37:24Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。