論文の概要: Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of
Lexical Gaps in Kinship
- arxiv url: http://arxiv.org/abs/2204.05049v1
- Date: Mon, 11 Apr 2022 12:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 15:46:23.003633
- Title: Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of
Lexical Gaps in Kinship
- Title(参考訳): 言語型タイポロジーを用いた多言語語彙の強化--語彙の接尾辞の場合
- Authors: Temuulen Khishigsuren, G\'abor Bella, Khuyagbaatar Batsuren, Abed
Alhakim Freihat, Nandu Chandran Nair, Amarsanaa Ganbold, Hadi Khalilia,
Yamini Chandrashekar, Fausto Giunchiglia
- Abstract要約: 語彙的ギャップと言語固有の単語という概念を通して多様性の現象を捉えている。
我々は,198のドメイン概念,1,911のワード,37,370のギャップからなる語彙意味資源を公開している。
- 参考スコア(独自算出の注目度): 4.970603969125883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes a method to enrich lexical resources with content
relating to linguistic diversity, based on knowledge from the field of lexical
typology. We capture the phenomenon of diversity through the notions of lexical
gap and language-specific word and use a systematic method to infer gaps
semi-automatically on a large scale. As a first result obtained for the domain
of kinship terminology, known to be very diverse throughout the world, we
publish a lexico-semantic resource consisting of 198 domain concepts, 1,911
words, and 37,370 gaps covering 699 languages. We see potential in the use of
resources such as ours for the improvement of a variety of cross-lingual NLP
tasks, which we demonstrate through a downstream application for the evaluation
of machine translation systems.
- Abstract(参考訳): 本稿では,語彙型学の分野からの知識をもとに,言語多様性に関連する内容で語彙資源を充実させる手法について述べる。
語彙的ギャップの概念と言語固有の単語を通して多様性の現象を捉え、大規模に半自動的にギャップを推測する体系的手法を用いる。
まず,世界各国で多様であることが知られている血縁関係用語の領域について,198のドメイン概念,1,911の単語,37,370のギャップからなる語彙・意味資源を公表した。
我々は,機械翻訳システム評価のための下流アプリケーションを通じて,多種多様な言語間NLPタスクの改善のために,我々のようなリソースの利用の可能性を見出した。
関連論文リスト
- Crowdsourcing Lexical Diversity [7.569845058082537]
本稿では,レキシコンのバイアス低減のための新しいクラウドソーシング手法を提案する。
群衆労働者は2つの言語からの語彙を比較し、親族や食べ物といった語彙の多様性に富む領域に焦点を当てる。
食品関連用語に焦点をあてた2つのケーススタディに適用し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-10-30T15:45:09Z) - LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。
私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。
8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。
本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文 参考訳(メタデータ) (2023-08-24T19:49:30Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - UAlberta at SemEval 2022 Task 2: Leveraging Glosses and Translations for
Multilingual Idiomaticity Detection [4.66831886752751]
本稿では,SemEval-2022タスク2における多言語的慣用性検出のためのアルバータ大学システムについて述べる。
慣用的表現が非合成的という仮定の下では,表現の個々の単語の意味に関する情報を二項分類器に統合する。
2つ目の方法は文脈で表現を翻訳し、語彙知識ベースを用いて翻訳がリテラルであるかどうかを判定する。
論文 参考訳(メタデータ) (2022-05-27T16:35:00Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。