論文の概要: Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations
- arxiv url: http://arxiv.org/abs/2109.14017v1
- Date: Tue, 28 Sep 2021 20:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 04:01:21.648300
- Title: Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations
- Title(参考訳): セサミ通りの振動構文木--制御可能な摂動を伴う多言語探索
- Authors: Ekaterina Taktasheva and Vladislav Mikhailov and Ekaterina Artemova
- Abstract要約: 近年の研究では、テキスト摂動の概念を中心とした新しい実験分野が採用されている。
近年の研究では、シャッフル語順がトランスフォーマーベースの言語モデルの下流性能にほとんど影響しないことが明らかになっている。
- 参考スコア(独自算出の注目度): 2.041108289731398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has adopted a new experimental field centered around the
concept of text perturbations which has revealed that shuffled word order has
little to no impact on the downstream performance of Transformer-based language
models across many NLP tasks. These findings contradict the common
understanding of how the models encode hierarchical and structural information
and even question if the word order is modeled with position embeddings. To
this end, this paper proposes nine probing datasets organized by the type of
\emph{controllable} text perturbation for three Indo-European languages with a
varying degree of word order flexibility: English, Swedish and Russian. Based
on the probing analysis of the M-BERT and M-BART models, we report that the
syntactic sensitivity depends on the language and model pre-training
objectives. We also find that the sensitivity grows across layers together with
the increase of the perturbation granularity. Last but not least, we show that
the models barely use the positional information to induce syntactic trees from
their intermediate self-attention and contextualized representations.
- Abstract(参考訳): 最近の研究は、テキスト摂動の概念を中心とした新しい実験分野を導入し、多くのNLPタスクにおけるトランスフォーマーベース言語モデルの下流性能に、シャッフル語順がほとんど、あるいは全く影響しないことを示した。
これらの知見は、モデルがどのように階層的および構造的な情報をエンコードするかの共通理解と矛盾し、単語順が位置埋め込みでモデル化されているかどうかさえ疑問である。
そこで本研究では,インド・ヨーロッパ語3言語を対象に,英語,スウェーデン語,ロシア語の順応度が異なる文の摂動型を用いて,9つの探索データセットを提案する。
M-BERTモデルとM-BARTモデルの探索解析に基づき、構文感度は言語およびモデル事前学習目標に依存することを報告した。
また, 摂動粒度の増加とともに, 層間に感度が増大することがわかった。
最後に、これらのモデルでは、中間的な自己注意と文脈表現から構文木を誘導する位置情報はほとんど利用していないことを示す。
関連論文リスト
- Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - Comparative Error Analysis in Neural and Finite-state Models for
Unsupervised Character-level Transduction [34.1177259741046]
2つのモデルクラスを並べて比較すると、同等のパフォーマンスを達成したとしても、異なるタイプのエラーが発生する傾向があります。
復号時における有限状態とシーケンス・ツー・シーケンスの組合せが、出力を定量的かつ質的にどう影響するかを考察する。
論文 参考訳(メタデータ) (2021-06-24T00:09:24Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。