論文の概要: Attention Can Reflect Syntactic Structure (If You Let It)
- arxiv url: http://arxiv.org/abs/2101.10927v1
- Date: Tue, 26 Jan 2021 16:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 07:29:18.905656
- Title: Attention Can Reflect Syntactic Structure (If You Let It)
- Title(参考訳): 注意は構文構造を反映する(許せば)
- Authors: Vinit Ravishankar, Artur Kulmizev, Mostafa Abdou, Anders S{\o}gaard,
Joakim Nivre
- Abstract要約: 18言語にまたがる多言語BERTのデコード実験について紹介する。
一つの注意ヘッドからフルツリーをベースライン精度以上のデコードできることを示す。
明示的な言語構造を学習する目的を操る際、我々は、結果として生じる注意パターンに表される同じ構造の多くを見いだす。
- 参考スコア(独自算出の注目度): 13.018623665953488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the popularization of the Transformer as a general-purpose feature
encoder for NLP, many studies have attempted to decode linguistic structure
from its novel multi-head attention mechanism. However, much of such work
focused almost exclusively on English -- a language with rigid word order and a
lack of inflectional morphology. In this study, we present decoding experiments
for multilingual BERT across 18 languages in order to test the generalizability
of the claim that dependency syntax is reflected in attention patterns. We show
that full trees can be decoded above baseline accuracy from single attention
heads, and that individual relations are often tracked by the same heads across
languages. Furthermore, in an attempt to address recent debates about the
status of attention as an explanatory mechanism, we experiment with fine-tuning
mBERT on a supervised parsing objective while freezing different series of
parameters. Interestingly, in steering the objective to learn explicit
linguistic structure, we find much of the same structure represented in the
resulting attention patterns, with interesting differences with respect to
which parameters are frozen.
- Abstract(参考訳): NLPの汎用機能エンコーダとしてのトランスフォーマーの普及以来、多くの研究は、その新しいマルチヘッド注意メカニズムから言語構造を解読しようと試みてきた。
しかし、これらの作品の多くは、厳格な語順と屈折形態の欠如した言語である英語にのみ焦点が当てられている。
本研究では,18言語にわたる多言語BERTの復号化実験を行い,依存性構文が注意パターンに反映されているという主張の一般化性を検証する。
単一注意頭からベースライン精度以上で全木をデコードでき、言語間の同一の頭によって個々の関係が追跡されることがよく示される。
さらに, 解説メカニズムとしての注目の現状に関する最近の議論に対処するために, パラメータの異なる系列を凍結しながら, 教師付きパース対象のmBERTの微調整実験を行った。
興味深いことに、明示的な言語構造を学ぶ目的を操作する際には、結果として生じる注意パターンで表される同じ構造の多くを見つけ、どのパラメータが凍結されるかに関して興味深い違いがあります。
関連論文リスト
- Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。
マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:48:23Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Local Structure Matters Most in Most Languages [15.870989191524094]
多言語環境における局所構造の重要性とグローバル構造の相対的不重要さに関する研究を再現する。
英語で観察される現象は、120以上の言語に広く翻訳されている。
論文 参考訳(メタデータ) (2022-11-09T16:58:44Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Fine-Grained Analysis of Cross-Linguistic Syntactic Divergences [18.19093600136057]
並列コーパスから任意の言語対の発散パターンを抽出するフレームワークを提案する。
我々のフレームワークは、言語間の相違の詳細な図を提供し、以前のアプローチを一般化し、完全に自動化することを示します。
論文 参考訳(メタデータ) (2020-05-07T13:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。