論文の概要: Evaluating Transformer-Based Multilingual Text Classification
- arxiv url: http://arxiv.org/abs/2004.13939v2
- Date: Thu, 30 Apr 2020 20:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:35:26.259075
- Title: Evaluating Transformer-Based Multilingual Text Classification
- Title(参考訳): トランスフォーマーに基づく多言語テキスト分類の評価
- Authors: Sophie Groenwold, Samhita Honnavalli, Lily Ou, Aesha Parekh, Sharon
Levy, Diba Mirza, William Yang Wang
- Abstract要約: 我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
- 参考スコア(独自算出の注目度): 55.53547556060537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As NLP tools become ubiquitous in today's technological landscape, they are
increasingly applied to languages with a variety of typological structures.
However, NLP research does not focus primarily on typological differences in
its analysis of state-of-the-art language models. As a result, NLP tools
perform unequally across languages with different syntactic and morphological
structures. Through a detailed discussion of word order typology, morphological
typology, and comparative linguistics, we identify which variables most affect
language modeling efficacy; in addition, we calculate word order and
morphological similarity indices to aid our empirical study. We then use this
background to support our analysis of an experiment we conduct using
multi-class text classification on eight languages and eight models.
- Abstract(参考訳): NLPツールは今日の技術的景観においてユビキタス化するにつれて、様々な類型構造を持つ言語にも適用されつつある。
しかし、NLP研究は主に、最先端の言語モデルの解析における類型的差異に焦点を当てていない。
結果として、NLPツールは、異なる構文構造と形態構造を持つ言語間で不平等に機能する。
語順型、形態類型学、比較言語学の詳細な議論を通じて、どの変数が言語モデリングの有効性に最も影響するかを識別し、また、語順と形態的類似性指標を計算して経験的研究を支援する。
次に、この背景を利用して、8つの言語と8つのモデルの多クラステキスト分類を用いた実験を行う。
関連論文リスト
- Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - Morphological Typology in BPE Subword Productivity and Language Modeling [0.0]
合成および解析的形態構造を持つ言語に着目し,トークン化時の生産性について検討する。
合成特徴を持つ言語は、BPEトークン化により、より高いサブワード規則性と生産性を示す。
論文 参考訳(メタデータ) (2024-10-31T06:13:29Z) - A Joint Matrix Factorization Analysis of Multilingual Representations [28.751144371901958]
多言語モデルと単言語モデルの潜在表現を比較するために,結合行列の分解に基づく解析ツールを提案する。
我々は,多言語事前学習モデルを用いて学習した表現において,形態素的特徴がどのように反映されるかについて検討した。
論文 参考訳(メタデータ) (2023-10-24T04:43:45Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - On the Transferability of Neural Models of Morphological Analogies [7.89271130004391]
本稿では,形態的課題に焦点をあて,形態的類似を検出するための深層学習手法を提案する。
我々は、我々のフレームワークが言語間でどのように移行するかを示す実証的研究を行い、これらの言語間の興味深い類似点と相違点を強調します。
これらの結果を踏まえ、多言語形態モデルの構築の可能性についても論じる。
論文 参考訳(メタデータ) (2021-08-09T11:08:33Z) - Morphology Matters: A Multilingual Language Modeling Analysis [8.791030561752384]
先行研究では、言語のモデル化が難しくなるかどうかについては意見が一致していない。
我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。
いくつかの形態学的測定は、LSTMモデルがBPEセグメントデータで訓練されると、より高い推定値と有意に関連します。
論文 参考訳(メタデータ) (2020-12-11T11:55:55Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Comparison of Turkish Word Representations Trained on Different
Morphological Forms [0.0]
本研究では形態学的に異なる形態のテキストをトルコ語の形態学的に豊かな言語で作成する。
我々は,補題と接尾辞を異なる方法で扱うテキスト上で, word2vec モデルを訓練した。
また、サブワードモデルであるfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
論文 参考訳(メタデータ) (2020-02-13T10:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。