論文の概要: Weakly-supervised Deep Cognate Detection Framework for Low-Resourced
Languages Using Morphological Knowledge of Closely-Related Languages
- arxiv url: http://arxiv.org/abs/2311.05155v1
- Date: Thu, 9 Nov 2023 05:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:07:40.601903
- Title: Weakly-supervised Deep Cognate Detection Framework for Low-Resourced
Languages Using Morphological Knowledge of Closely-Related Languages
- Title(参考訳): 閉鎖的関連言語の形態的知識を用いた低リソース言語のための弱教師付きディープコグネート検出フレームワーク
- Authors: Koustava Goswami, Priya Rani, Theodorus Fransen, John P. McCrae
- Abstract要約: アンダーリソース言語でのトランスファーラーニングのためのコニャートを爆発させることは、言語理解タスクのエキサイティングな機会である。
従来のアプローチは主に、正書法、音声学、あるいは最先端の文脈言語モデルに基づくコグネート検出タスクの監督に重点を置いていた。
本稿では、アンダーリソース言語に対する言語に依存しない弱教師付き深層コグネート検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.7622337807395716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploiting cognates for transfer learning in under-resourced languages is an
exciting opportunity for language understanding tasks, including unsupervised
machine translation, named entity recognition and information retrieval.
Previous approaches mainly focused on supervised cognate detection tasks based
on orthographic, phonetic or state-of-the-art contextual language models, which
under-perform for most under-resourced languages. This paper proposes a novel
language-agnostic weakly-supervised deep cognate detection framework for
under-resourced languages using morphological knowledge from closely related
languages. We train an encoder to gain morphological knowledge of a language
and transfer the knowledge to perform unsupervised and weakly-supervised
cognate detection tasks with and without the pivot language for the
closely-related languages. While unsupervised, it overcomes the need for
hand-crafted annotation of cognates. We performed experiments on different
published cognate detection datasets across language families and observed not
only significant improvement over the state-of-the-art but also our method
outperformed the state-of-the-art supervised and unsupervised methods. Our
model can be extended to a wide range of languages from any language family as
it overcomes the requirement of the annotation of the cognate pairs for
training. The code and dataset building scripts can be found at
https://github.com/koustavagoswami/Weakly_supervised-Cognate_Detection
- Abstract(参考訳): アントラリソース言語でのトランスファーラーニングのためのコニャーテの爆発は、教師なし機械翻訳、名前付きエンティティ認識、情報検索など、言語理解タスクのエキサイティングな機会である。
それまでのアプローチは、主に正書法、音声学、最先端の文脈言語モデルに基づくコグネート検出タスクの監督に重点を置いていた。
本稿では, 近縁な言語からの形態的知識を用いたアンダーリソース言語のための, 言語に依存しない弱教師付き深層コグネート検出フレームワークを提案する。
我々は,言語の形態的知識を得るためにエンコーダを訓練し,その知識を教師なし・弱教師付きコグネート検出タスクに伝達する。
教師なしだが、cognatesの手書きアノテーションの必要性を克服する。
言語ファミリにまたがる異なるコグネイト検出データセットを用いて実験を行い,最先端の教師なしおよび教師なしの手法よりも優れた改善がみられた。
私たちのモデルは、トレーニングのためのコグネートペアのアノテーションの要件を克服するため、あらゆる言語ファミリから幅広い言語に拡張することができます。
コードとデータセットの構築スクリプトはhttps://github.com/koustavagoswami/Weakly_supervised-Cognate_Detectionで確認できる。
関連論文リスト
- A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Cross-Lingual Adaptation for Type Inference [29.234418962960905]
弱い型付き言語間で深層学習に基づく型推論を行うための言語間適応フレームワークPLATOを提案する。
強く型付けされた言語からのデータを活用することで、PLATOは、バックボーンのクロスプログラミング言語モデルの難易度を改善する。
論文 参考訳(メタデータ) (2021-07-01T00:20:24Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。