論文の概要: Exploring Linguistic Properties of Monolingual BERTs with Typological
Classification among Languages
- arxiv url: http://arxiv.org/abs/2305.02215v1
- Date: Wed, 3 May 2023 15:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:18:43.298249
- Title: Exploring Linguistic Properties of Monolingual BERTs with Typological
Classification among Languages
- Title(参考訳): 言語分類による単言語BERTの言語学的特性の探索
- Authors: Federico Ranaldi, Elena Sofia Ruzzetti, Felicia Logozzo, Michele
Mastromattei, Leonardo Ranaldi, Fabio Massimo Zanzotto
- Abstract要約: 構文的類型的類似性は 中層における重み間の類似性と一致している。
この発見は、BERTを構文的に探索して得られた結果を確認する。
- 参考スコア(独自算出の注目度): 0.13048920509133807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The overwhelming success of transformers is a real conundrum stimulating a
compelling question: are these machines replicating some traditional linguistic
models or discovering radically new theories? In this paper, we propose a novel
standpoint to investigate this important question. Using typological
similarities among languages, we aim to layer-wise compare transformers for
different languages to observe whether these similarities emerge for particular
layers. For this investigation, we propose to use Centered kernel alignment to
measure similarity among weight matrices. We discovered that syntactic
typological similarity is consistent with the similarity among weights in the
middle layers. This finding confirms results obtained by syntactically probing
BERT and, thus, gives an important confirmation that BERT is replicating
traditional linguistic models.
- Abstract(参考訳): トランスフォーマーの圧倒的な成功は、説得力のある疑問を喚起する真の結束である。これらのマシンは、いくつかの伝統的な言語モデルを複製しているか、あるいは根本的に新しい理論を発見するのか?
本稿では,この重要な課題を調査するための新しい視点を提案する。
言語間の類型的類似性を用いて、異なる言語でトランスフォーマを比較し、それらの類似性が特定の層に現れるかどうかを観察する。
本研究では,重み行列間の類似度を測定するためにCentered kernelアライメントを提案する。
我々は,中間層における重み間の類似性に類似性があることを発見した。
この結果は,BERTを構文的に探索した結果を裏付けるものであり,BERTが従来の言語モデルを複製していることを示す重要な証拠となる。
関連論文リスト
- Character-level NMT and language similarity [1.90365714903665]
チェコ語とクロアチア語、ドイツ語、ハンガリー語、スロバキア語、スペイン語の翻訳における言語類似度およびトレーニングデータセットのサイズに対する文字レベルのニューラルマシン翻訳の有効性について検討した。
MT自動測定値を用いてモデルの評価を行い、類似言語間の翻訳が文字レベルの入力セグメンテーションの恩恵を受けることを示す。
我々は、すでに訓練済みのサブワードレベルのモデルを文字レベルに微調整することで、ギャップを埋めることが可能である、という以前の知見を確認した。
論文 参考訳(メタデータ) (2023-08-08T17:01:42Z) - Mapping Researcher Activity based on Publication Data by means of
Transformers [0.6367279911825442]
我々はこの概念を地域出版データベースの調査に用いている。
研究論文は、科学的トピックのランドスケープビューを形成するためにエンコードされ、クラスタ化されている。
同様のトピックに取り組んでいる著者は、論文間の類似性を計算することで特定することができる。
論文 参考訳(メタデータ) (2023-06-15T11:13:54Z) - A study of conceptual language similarity: comparison and evaluation [0.3093890460224435]
自然言語処理(NLP)に関する興味深い研究は、言語型学を取り入れ、言語多様性を橋渡しすることを目的としている。
最近の研究は、それらが基本的な概念をどのように表現するかに基づいて、言語類似性を定義する新しいアプローチを導入している。
本研究では,概念的類似性を詳細に研究し,二項分類タスクにおいて広範囲に評価する。
論文 参考訳(メタデータ) (2023-05-22T18:28:02Z) - PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity [5.439505575097552]
言語間セマンティック類似性モデルでは、言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。
ペルシャ語は低資源言語の1つであり、二つの言語の文脈を理解できるモデルの必要性は、これまで以上に感じられる。
本稿では,ペルシア語と英語の文間の意味的類似性のコーパスを,言語専門家を用いて初めて作成した。
論文 参考訳(メタデータ) (2023-05-13T11:02:50Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。