論文の概要: Exploring Linguistic Properties of Monolingual BERTs with Typological
Classification among Languages
- arxiv url: http://arxiv.org/abs/2305.02215v2
- Date: Thu, 29 Feb 2024 08:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 19:13:13.618211
- Title: Exploring Linguistic Properties of Monolingual BERTs with Typological
Classification among Languages
- Title(参考訳): 言語分類による単言語BERTの言語学的特性の探索
- Authors: Elena Sofia Ruzzetti, Federico Ranaldi, Felicia Logozzo, Michele
Mastromattei, Leonardo Ranaldi, Fabio Massimo Zanzotto
- Abstract要約: 言語間の類型的類似性を利用して、それぞれのモノリンガルモデルがどのように構造情報を符号化するかを観察する。
統語型型的類似性は中層における重みの類似性と一致している。
意味論的に等価なテキストに対するドメイン適応は、重み行列間のこの類似性を高める。
- 参考スコア(独自算出の注目度): 2.4000693079299684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive achievements of transformers force NLP researchers to delve
into how these models represent the underlying structure of natural language.
In this paper, we propose a novel standpoint to investigate the above issue:
using typological similarities among languages to observe how their respective
monolingual models encode structural information. We aim to layer-wise compare
transformers for typologically similar languages to observe whether these
similarities emerge for particular layers. For this investigation, we propose
to use Centered Kernel Alignment to measure similarity among weight matrices.
We found that syntactic typological similarity is consistent with the
similarity between the weights in the middle layers, which are the pretrained
BERT layers to which syntax encoding is generally attributed. Moreover, we
observe that a domain adaptation on semantically equivalent texts enhances this
similarity among weight matrices.
- Abstract(参考訳): トランスフォーマーの素晴らしい成果は、NLP研究者に、これらのモデルが自然言語の基盤構造をどのように表現しているかを探求させる。
本稿では,言語間の類型的類似性を用いて,それぞれのモノリンガルモデルがどのように構造情報を符号化するかを観察する。
これらの類似性が特定の層に現れるかどうかを観察するために、類型的に類似した言語でトランスフォーマーをレイヤ単位で比較することを目指している。
本研究では,重み行列間の類似度を測定するためにCentered Kernel Alignmentを提案する。
その結果,構文的タイポロジー的類似性は,構文エンコーディングが一般的に引き起こされる事前学習されたbert層である中間層における重み間の類似性と一致することがわかった。
さらに,意味的に等価なテキストに対するドメイン適応は,重み行列間の類似性を高める。
関連論文リスト
- Character-level NMT and language similarity [1.90365714903665]
チェコ語とクロアチア語、ドイツ語、ハンガリー語、スロバキア語、スペイン語の翻訳における言語類似度およびトレーニングデータセットのサイズに対する文字レベルのニューラルマシン翻訳の有効性について検討した。
MT自動測定値を用いてモデルの評価を行い、類似言語間の翻訳が文字レベルの入力セグメンテーションの恩恵を受けることを示す。
我々は、すでに訓練済みのサブワードレベルのモデルを文字レベルに微調整することで、ギャップを埋めることが可能である、という以前の知見を確認した。
論文 参考訳(メタデータ) (2023-08-08T17:01:42Z) - Mapping Researcher Activity based on Publication Data by means of
Transformers [0.6367279911825442]
我々はこの概念を地域出版データベースの調査に用いている。
研究論文は、科学的トピックのランドスケープビューを形成するためにエンコードされ、クラスタ化されている。
同様のトピックに取り組んでいる著者は、論文間の類似性を計算することで特定することができる。
論文 参考訳(メタデータ) (2023-06-15T11:13:54Z) - A study of conceptual language similarity: comparison and evaluation [0.3093890460224435]
自然言語処理(NLP)に関する興味深い研究は、言語型学を取り入れ、言語多様性を橋渡しすることを目的としている。
最近の研究は、それらが基本的な概念をどのように表現するかに基づいて、言語類似性を定義する新しいアプローチを導入している。
本研究では,概念的類似性を詳細に研究し,二項分類タスクにおいて広範囲に評価する。
論文 参考訳(メタデータ) (2023-05-22T18:28:02Z) - PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity [5.439505575097552]
言語間セマンティック類似性モデルでは、言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。
ペルシャ語は低資源言語の1つであり、二つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられる。
本稿では,ペルシア語と英語の文間の意味的類似性のコーパスを,言語専門家を用いて初めて作成した。
論文 参考訳(メタデータ) (2023-05-13T11:02:50Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。