論文の概要: Evaluating Transformer's Ability to Learn Mildly Context-Sensitive
Languages
- arxiv url: http://arxiv.org/abs/2309.00857v1
- Date: Sat, 2 Sep 2023 08:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:48:58.105299
- Title: Evaluating Transformer's Ability to Learn Mildly Context-Sensitive
Languages
- Title(参考訳): ゆるやかな文脈に敏感な言語を学ぶトランスフォーマーの能力評価
- Authors: Shunjie Wang, Shane Steinert-Threlkeld
- Abstract要約: 近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。
様々な複雑さの文脈に敏感な言語を学習するTransformerの能力をテストする。
分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
- 参考スコア(独自算出の注目度): 6.227678387562755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite that Transformers perform well in NLP tasks, recent studies suggest
that self-attention is theoretically limited in learning even some regular and
context-free languages. These findings motivated us to think about their
implications in modeling natural language, which is hypothesized to be mildly
context-sensitive. We test Transformer's ability to learn a variety of mildly
context-sensitive languages of varying complexities, and find that they
generalize well to unseen in-distribution data, but their ability to
extrapolate to longer strings is worse than that of LSTMs. Our analyses show
that the learned self-attention patterns and representations modeled dependency
relations and demonstrated counting behavior, which may have helped the models
solve the languages.
- Abstract(参考訳): トランスフォーマーはNLPタスクでよく機能するが、最近の研究は、自己注意は理論上、一部の正規言語や文脈自由言語でも学習に限られていることを示唆している。
これらの知見は, 文脈に敏感であると考えられる自然言語のモデリングにおいて, その意味について考えるきっかけとなった。
我々はTransformerが様々な複雑さの文脈に敏感な様々な言語を学習する能力をテストするとともに、それらが不明瞭な分布データによく当てはまることを確かめるが、長い文字列に外挿する能力はLSTMよりも悪い。
分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,そのモデルが言語を解くのに役立った可能性が示唆された。
関連論文リスト
- From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。