論文の概要: A Joint Matrix Factorization Analysis of Multilingual Representations
- arxiv url: http://arxiv.org/abs/2310.15513v1
- Date: Tue, 24 Oct 2023 04:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:29:04.701992
- Title: A Joint Matrix Factorization Analysis of Multilingual Representations
- Title(参考訳): 多言語表現の結合行列分解解析
- Authors: Zheng Zhao, Yftah Ziser, Bonnie Webber, Shay B. Cohen
- Abstract要約: 多言語モデルと単言語モデルの潜在表現を比較するために,結合行列の分解に基づく解析ツールを提案する。
我々は,多言語事前学習モデルを用いて学習した表現において,形態素的特徴がどのように反映されるかについて検討した。
- 参考スコア(独自算出の注目度): 28.751144371901958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an analysis tool based on joint matrix factorization for comparing
latent representations of multilingual and monolingual models. An alternative
to probing, this tool allows us to analyze multiple sets of representations in
a joint manner. Using this tool, we study to what extent and how
morphosyntactic features are reflected in the representations learned by
multilingual pre-trained models. We conduct a large-scale empirical study of
over 33 languages and 17 morphosyntactic categories. Our findings demonstrate
variations in the encoding of morphosyntactic information across upper and
lower layers, with category-specific differences influenced by language
properties. Hierarchical clustering of the factorization outputs yields a tree
structure that is related to phylogenetic trees manually crafted by linguists.
Moreover, we find the factorization outputs exhibit strong associations with
performance observed across different cross-lingual tasks. We release our code
to facilitate future research.
- Abstract(参考訳): 多言語モデルと単言語モデルの潜在表現を比較するために,結合行列の分解に基づく解析ツールを提案する。
探索の代替として、このツールは複数の表現の集合を共同で解析することを可能にする。
このツールを用いて,多言語事前学習モデルで学習した表現に形態素的特徴がどのように反映されているかを検討した。
33以上の言語と17種類の形態素合成カテゴリの大規模実証研究を行った。
以上の結果から,上層と下層における形態素情報エンコーディングの多様性が示され,言語特性によるカテゴリー別差異がみられた。
因子化出力の階層的クラスタリングは、言語学者が手作業で作成した系統樹に関連する木構造をもたらす。
さらに、因子化出力は、異なる言語間タスク間で観察される性能と強い相関を示す。
将来の研究を促進するためにコードをリリースします。
関連論文リスト
- Morphological Typology in BPE Subword Productivity and Language Modeling [0.0]
合成および解析的形態構造を持つ言語に着目し,トークン化時の生産性について検討する。
合成特徴を持つ言語は、BPEトークン化により、より高いサブワード規則性と生産性を示す。
論文 参考訳(メタデータ) (2024-10-31T06:13:29Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - A Systematic Analysis of Morphological Content in BERT Models for
Multiple Languages [2.345305607613153]
本研究は、形態学的内容に対するBERTスタイルモデルの隠れ表現を探索する実験について述べる。
目的は、形態的特徴と特徴値の形で、個別の言語構造が5つのヨーロッパ言語に対する事前学習された言語モデルのベクトル表現と注意分布にどの程度存在するかを検討することである。
論文 参考訳(メタデータ) (2020-04-06T22:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。