論文の概要: Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT
- arxiv url: http://arxiv.org/abs/2101.11043v1
- Date: Tue, 26 Jan 2021 19:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:56:21.135842
- Title: Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT
- Title(参考訳): 深層主語: 多言語BERTにおける高次文法的特徴
- Authors: Isabel Papadimitriou, Ethan A. Chi, Richard Futrell, Kyle Mahowald
- Abstract要約: MBERT(Multilingual BERT)が文法をエンコードするには,複数言語の埋め込み空間にまたがるモルフォシンタクティックアライメントの高次文法的特徴がどのように現れるかを検討する。
- 参考スコア(独自算出の注目度): 7.057643880514415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how Multilingual BERT (mBERT) encodes grammar by examining how
the high-order grammatical feature of morphosyntactic alignment (how different
languages define what counts as a "subject") is manifested across the embedding
spaces of different languages. To understand if and how morphosyntactic
alignment affects contextual embedding spaces, we train classifiers to recover
the subjecthood of mBERT embeddings in transitive sentences (which do not
contain overt information about morphosyntactic alignment) and then evaluate
them zero-shot on intransitive sentences (where subjecthood classification
depends on alignment), within and across languages. We find that the resulting
classifier distributions reflect the morphosyntactic alignment of their
training languages. Our results demonstrate that mBERT representations are
influenced by high-level grammatical features that are not manifested in any
one input sentence, and that this is robust across languages. Further examining
the characteristics that our classifiers rely on, we find that features such as
passive voice, animacy and case strongly correlate with classification
decisions, suggesting that mBERT does not encode subjecthood purely
syntactically, but that subjecthood embedding is continuous and dependent on
semantic and discourse factors, as is proposed in much of the functional
linguistics literature. Together, these results provide insight into how
grammatical features manifest in contextual embedding spaces, at a level of
abstraction not covered by previous work.
- Abstract(参考訳): MBERT(Multilingual BERT)がどのように文法をエンコードするかを、異なる言語の埋め込み空間にまたがるモルフォスシンタクティックアライメントの高階文法的特徴(異なる言語が「対象」としてカウントするものをどのように定義するか)がどのように現れるかを検討する。
モーフィオシンタクティックアライメントが文脈埋め込み空間にどのように影響するかを理解するために,モーフィオシンタクティックアライメントに関する過剰な情報を含まない)推移文における mBERT 埋め込みの主観性を取り戻すよう分類器を訓練し,非推移文(主観的分類がアライメントに依存する部分)においてゼロショットの評価を行う。
得られた分類器分布は, 学習言語の形態的アライメントを反映していることがわかった。
以上の結果から,mBERT表現は1つの入力文に現れない高次文法的特徴の影響を受けており,言語間で堅牢であることが示された。
さらに,我々の分類器が依存する特徴について検討した結果,パッシブ・ボイス,アナタシー,ケースといった特徴は分類決定と強く関連しており,mbert は主観を純粋に構文的にエンコードしていないが,主観埋め込みは意味的・談話的要因に依存しており,機能言語学の文献の多くで提案されている。
これらの結果は, 文脈埋め込み空間における文法的特徴がどのように現れるのかを, 過去の研究でカバーされていない抽象レベルにおいて考察する。
関連論文リスト
- Assessing the Role of Lexical Semantics in Cross-lingual Transfer through Controlled Manipulations [15.194196775504613]
我々は、英語と対象言語の違いが、英語の事前訓練された表現空間と言語を整合させる能力にどのように影響するかを分析する。
文字や単語の順序などの特性はアライメント品質に限られた影響しか与えないが、翻訳エントロピーの尺度を用いて定義する2言語間の語彙マッチングの程度は、それに大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-08-14T14:59:20Z) - Breaking Down Word Semantics from Pre-trained Language Models through
Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。
2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文 参考訳(メタデータ) (2023-10-08T11:07:19Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Linguistic Profiling of a Neural Language Model [1.0552465253379135]
本研究では,ニューラルネットワークモデル(NLM)が微調整前後に学習した言語知識について検討する。
BERTは、幅広い言語特性を符号化できるが、特定の下流タスクで訓練すると、その情報を失う傾向にある。
論文 参考訳(メタデータ) (2020-10-05T09:09:01Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。