論文の概要: Utilizing Wordnets for Cognate Detection among Indian Languages
- arxiv url: http://arxiv.org/abs/2112.15124v1
- Date: Thu, 30 Dec 2021 16:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 00:55:31.555119
- Title: Utilizing Wordnets for Cognate Detection among Indian Languages
- Title(参考訳): インドの言語間コグネイト検出のためのwordnetsの利用
- Authors: Diptesh Kanojia, Kevin Patel, Pushpak Bhattacharyya, Malhar Kulkarni,
Gholamreza Haffari
- Abstract要約: ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
- 参考スコア(独自算出の注目度): 50.83320088758705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Cognate Detection (ACD) is a challenging task which has been
utilized to help NLP applications like Machine Translation, Information
Retrieval and Computational Phylogenetics. Unidentified cognate pairs can pose
a challenge to these applications and result in a degradation of performance.
In this paper, we detect cognate word pairs among ten Indian languages with
Hindi and use deep learning methodologies to predict whether a word pair is
cognate or not. We identify IndoWordnet as a potential resource to detect
cognate word pairs based on orthographic similarity-based methods and train
neural network models using the data obtained from it. We identify parallel
corpora as another potential resource and perform the same experiments for
them. We also validate the contribution of Wordnets through further
experimentation and report improved performance of up to 26%. We discuss the
nuances of cognate detection among closely related Indian languages and release
the lists of detected cognates as a dataset. We also observe the behaviour of,
to an extent, unrelated Indian language pairs and release the lists of detected
cognates among them as well.
- Abstract(参考訳): ACD(Automatic Cognate Detection)は、機械翻訳、情報検索、計算系統学などのNLPアプリケーションを支援するために使われている課題である。
統一されたコグネートペアはこれらのアプリケーションに挑戦し、結果として性能が低下する。
本稿では,ヒンディー語を含む10言語間の単語対を検出し,深層学習手法を用いて単語対がコグネートであるか否かを予測する。
IndoWordnetは、正書法的な類似性に基づく単語ペアの検出と、そこから得られたデータを用いてニューラルネットワークモデルを訓練するための潜在的なリソースである。
並列コーパスを別の潜在的な資源として認識し,同じ実験を行う。
また,Wordnetsのさらなる実験による貢献を検証し,最大26%の性能向上を報告した。
近縁なインド言語間のコグネート検出のニュアンスを議論し,検出されたコグネートのリストをデータセットとして公開する。
また,無関係なインドの言語ペアの挙動をある程度観察し,検出されたコニャートのリストも公開する。
関連論文リスト
- Automated Cognate Detection as a Supervised Link Prediction Task with
Cognate Transformer [4.609569810881602]
関連する言語をまたいだコニャートの同定は、歴史的言語学における主要な問題の一つである。
本稿では,コグネート自動検出のための計算生物学にインスパイアされたトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-05T11:47:36Z) - Weakly-supervised Deep Cognate Detection Framework for Low-Resourced
Languages Using Morphological Knowledge of Closely-Related Languages [1.7622337807395716]
アンダーリソース言語でのトランスファーラーニングのためのコニャートを爆発させることは、言語理解タスクのエキサイティングな機会である。
従来のアプローチは主に、正書法、音声学、あるいは最先端の文脈言語モデルに基づくコグネート検出タスクの監督に重点を置いていた。
本稿では、アンダーリソース言語に対する言語に依存しない弱教師付き深層コグネート検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T05:46:41Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Linguistic Classification using Instance-Based Learning [0.0]
コントラリア的アプローチを採用し、かなり制約のあるツリーベースモデルに疑問を呈する。
例えば、サンスクリットがインド・ヨーロッパ語にまたがる言語と独立して親和性は、ネットワークモデルを用いてよりよく説明できる。
インドにおける言語間の相互関係についても同じことが言えます。
論文 参考訳(メタデータ) (2020-12-02T04:12:10Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。