論文の概要: Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages
- arxiv url: http://arxiv.org/abs/2112.08789v1
- Date: Thu, 16 Dec 2021 11:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 22:44:10.904534
- Title: Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages
- Title(参考訳): 低リソース言語のコグネイト検出を改善するための言語間特徴の活用
- Authors: Diptesh Kanojia, Raj Dabre, Shubham Dewangan, Pushpak Bhattacharyya,
Gholamreza Haffari, Malhar Kulkarni
- Abstract要約: 言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
- 参考スコア(独自算出の注目度): 50.82410844837726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognates are variants of the same lexical form across different languages;
for example 'fonema' in Spanish and 'phoneme' in English are cognates, both of
which mean 'a unit of sound'. The task of automatic detection of cognates among
any two languages can help downstream NLP tasks such as Cross-lingual
Information Retrieval, Computational Phylogenetics, and Machine Translation. In
this paper, we demonstrate the use of cross-lingual word embeddings for
detecting cognates among fourteen Indian Languages. Our approach introduces the
use of context from a knowledge graph to generate improved feature
representations for cognate detection. We, then, evaluate the impact of our
cognate detection mechanism on neural machine translation (NMT), as a
downstream task. We evaluate our methods to detect cognates on a challenging
dataset of twelve Indian languages, namely, Sanskrit, Hindi, Assamese, Oriya,
Kannada, Gujarati, Tamil, Telugu, Punjabi, Bengali, Marathi, and Malayalam.
Additionally, we create evaluation datasets for two more Indian languages,
Konkani and Nepali. We observe an improvement of up to 18% points, in terms of
F-score, for cognate detection. Furthermore, we observe that cognates extracted
using our method help improve NMT quality by up to 2.76 BLEU. We also release
our code, newly constructed datasets and cross-lingual models publicly.
- Abstract(参考訳): コニャートは異なる言語にまたがる同じ語彙形式の変種であり、例えばスペイン語の「フォネマ」や英語の「音素」はコニャートであり、どちらも「音の単位」を意味する。
2つの言語間のコグネートの自動検出のタスクは、言語間情報検索、計算系統学、機械翻訳などの下流のnlpタスクに役立つ。
本稿では,14のインド諸言語間における単語認識のための言語間埋め込みの活用について述べる。
提案手法では,コグネート検出のための特徴表現の改善のために,知識グラフからのコンテキストの利用を提案する。
そこで我々は,コグネート検出機構がニューラルネットワーク翻訳(NMT)に与える影響を下流タスクとして評価した。
サンスクリット語、ヒンディー語、アサメセ語、オリヤ語、カンナダ語、グジャラート語、タミル語、テルグ語、パンジャービ語、ベンガル語、マラヤラム語の12言語からなる挑戦的データセットを用いてコニャートを検出する方法を評価する。
さらに、コンカニ語とネパール語という2つのインドの言語の評価データセットを作成する。
我々は,コグネート検出のためのf-scoreの観点から,最大18%の改善を観察した。
さらに,NMTの品質を最大2.76BLEUで向上させる方法として,コニャート抽出法が有用であることを示す。
また、コード、新しく構築されたデータセット、言語横断モデルも公開しています。
関連論文リスト
- Weakly-supervised Deep Cognate Detection Framework for Low-Resourced
Languages Using Morphological Knowledge of Closely-Related Languages [1.7622337807395716]
アンダーリソース言語でのトランスファーラーニングのためのコニャートを爆発させることは、言語理解タスクのエキサイティングな機会である。
従来のアプローチは主に、正書法、音声学、あるいは最先端の文脈言語モデルに基づくコグネート検出タスクの監督に重点を置いていた。
本稿では、アンダーリソース言語に対する言語に依存しない弱教師付き深層コグネート検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T05:46:41Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。