論文の概要: Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity
- arxiv url: http://arxiv.org/abs/2003.04866v1
- Date: Tue, 10 Mar 2020 17:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:02:00.461026
- Title: Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity
- Title(参考訳): multi-simlex:多言語・言語間意味類似性の大規模評価
- Authors: Ivan Vuli\'c, Simon Baker, Edoardo Maria Ponti, Ulla Petti, Ira
Leviant, Kelly Wing, Olga Majewska, Eden Bar, Matt Malone, Thierry Poibeau,
Roi Reichart, Anna Korhonen
- Abstract要約: Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
- 参考スコア(独自算出の注目度): 67.36239720463657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Multi-SimLex, a large-scale lexical resource and evaluation
benchmark covering datasets for 12 typologically diverse languages, including
major languages (e.g., Mandarin Chinese, Spanish, Russian) as well as
less-resourced ones (e.g., Welsh, Kiswahili). Each language dataset is
annotated for the lexical relation of semantic similarity and contains 1,888
semantically aligned concept pairs, providing a representative coverage of word
classes (nouns, verbs, adjectives, adverbs), frequency ranks, similarity
intervals, lexical fields, and concreteness levels. Additionally, owing to the
alignment of concepts across languages, we provide a suite of 66 cross-lingual
semantic similarity datasets. Due to its extensive size and language coverage,
Multi-SimLex provides entirely novel opportunities for experimental evaluation
and analysis. On its monolingual and cross-lingual benchmarks, we evaluate and
analyze a wide array of recent state-of-the-art monolingual and cross-lingual
representation models, including static and contextualized word embeddings
(such as fastText, M-BERT and XLM), externally informed lexical
representations, as well as fully unsupervised and (weakly) supervised
cross-lingual word embeddings. We also present a step-by-step dataset creation
protocol for creating consistent, Multi-Simlex-style resources for additional
languages. We make these contributions -- the public release of Multi-SimLex
datasets, their creation protocol, strong baseline results, and in-depth
analyses which can be be helpful in guiding future developments in multilingual
lexical semantics and representation learning -- available via a website which
will encourage community effort in further expansion of Multi-Simlex to many
more languages. Such a large-scale semantic resource could inspire significant
further advances in NLP across languages.
- Abstract(参考訳): 大規模な語彙資源と評価ベンチマークであるMulti-SimLexを導入し、主要な言語(中国語、スペイン語、ロシア語など)や低リソースの言語(ウェールズ語、キスワヒリ語など)を含む、12の類型的に多様な言語のデータセットをカバーした。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888の意味的整合概念ペアを含み、単語クラス(名詞、動詞、形容詞、副詞)、頻度ランク、類似度間隔、語彙フィールド、具体性レベルを代表的にカバーする。
さらに、言語間の概念のアラインメントにより、66の言語間の意味的類似性データセットを提供する。
広範にわたるサイズと言語カバレッジのため、マルチsimlexは実験的な評価と分析のための全く新しい機会を提供する。
モノリンガルおよびクロスリンガルのベンチマークでは,静的および文脈化された単語埋め込み(fastText, M-BERT, XLM など)や外部情報による語彙表現,さらには完全に教師のない(弱く)教師付き言語間単語埋め込みなど,最新のモノリンガルおよびクロスリンガル表現モデルの評価と解析を行った。
また、追加言語のための一貫性のあるマルチシンプレックススタイルのリソースを作成するためのステップバイステップのデータセット生成プロトコルを提案する。
我々は、これらの貢献 -- マルチsimlexデータセットのパブリックリリース、それらの作成プロトコル、強力なベースライン結果、そして多言語語彙意味論と表現学習の将来の発展を導くのに役立つ深い分析 -- を、コミュニティがより多くの言語にマルチsimlexをさらに拡張するための努力を促すwebサイトを通じて提供します。
このような大規模セマンティックリソースは、言語間でのNLPのさらなる進歩を引き起こす可能性がある。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Massively Multilingual Lexical Specialization of Multilingual
Transformers [18.766379322798837]
本稿では,2つの標準言語間語彙タスクにおいて,多言語レキシカル特殊化が著しく向上することを示す。
我々は,語彙制約のない言語への多言語語彙の特殊化によって一般化できることを示唆し,特殊化に欠かせない言語に対するゲインを観察する。
論文 参考訳(メタデータ) (2022-08-01T17:47:03Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。