論文の概要: Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages
- arxiv url: http://arxiv.org/abs/2112.09526v1
- Date: Fri, 17 Dec 2021 14:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 19:36:01.426050
- Title: Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages
- Title(参考訳): インド語からのコニャーテと偽フレンドペアの挑戦データセット
- Authors: Diptesh Kanojia, Pushpak Bhattacharyya, Malhar Kulkarni, Gholamreza
Haffari
- Abstract要約: コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
- 参考スコア(独自算出の注目度): 54.6340870873525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognates are present in multiple variants of the same text across different
languages (e.g., "hund" in German and "hound" in English language mean "dog").
They pose a challenge to various Natural Language Processing (NLP) applications
such as Machine Translation, Cross-lingual Sense Disambiguation, Computational
Phylogenetics, and Information Retrieval. A possible solution to address this
challenge is to identify cognates across language pairs. In this paper, we
describe the creation of two cognate datasets for twelve Indian languages,
namely Sanskrit, Hindi, Assamese, Oriya, Kannada, Gujarati, Tamil, Telugu,
Punjabi, Bengali, Marathi, and Malayalam. We digitize the cognate data from an
Indian language cognate dictionary and utilize linked Indian language Wordnets
to generate cognate sets. Additionally, we use the Wordnet data to create a
False Friends' dataset for eleven language pairs. We also evaluate the efficacy
of our dataset using previously available baseline cognate detection
approaches. We also perform a manual evaluation with the help of lexicographers
and release the curated gold-standard dataset with this paper.
- Abstract(参考訳): コニャートは異なる言語にまたがって同じテキストの複数の変種に存在する(例えばドイツ語の"hund"や英語の"hound"は"dog"を意味する)。
彼らは機械翻訳、言語間センスの曖昧さ、計算系統学、情報検索といった様々な自然言語処理(NLP)アプリケーションに挑戦している。
この課題に対処するための可能な解決策は、言語ペア間の認識を識別することだ。
本論文では,インド12言語(サンスクリット,ヒンディー,アサメセ,オリヤ,カンナダ,グジャラティ,タミル,テルグ,パンジャビ,ベンガル,マラティアラム)のコグネートデータセットの作成について述べる。
本稿では,インド語コグネート辞書からコグネートデータをデジタル化し,リンクされたインド語ワードネットを用いてコグネート集合を生成する。
さらに、Wordnetデータを使用して、11の言語ペアのためのFalse Friendsのデータセットを作成します。
また,既存のベースラインコグネイト検出手法を用いてデータセットの有効性を評価した。
また,レキシコグラフィーの助けを借りて手作業による評価を行い,本論文で得られた金標準データセットを公表する。
関連論文リスト
- Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。