論文の概要: A Generalized Constraint Approach to Bilingual Dictionary Induction for
Low-Resource Language Families
- arxiv url: http://arxiv.org/abs/2010.02395v1
- Date: Mon, 5 Oct 2020 23:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:11:03.317231
- Title: A Generalized Constraint Approach to Bilingual Dictionary Induction for
Low-Resource Language Families
- Title(参考訳): 低リソース言語家庭における二言語辞書の一般化制約手法
- Authors: Arbi Haza Nasution, Yohei Murakami, Toru Ishida
- Abstract要約: 密接に関連する言語に対する制約に基づくバイリンガル語彙帰納法を提案する。
我々はコグネート同義語を多対多の翻訳対を得るために同定する。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack or absence of parallel and comparable corpora makes bilingual
lexicon extraction a difficult task for low-resource languages. The pivot
language and cognate recognition approaches have been proven useful for
inducing bilingual lexicons for such languages. We propose constraint-based
bilingual lexicon induction for closely-related languages by extending
constraints from the recent pivot-based induction technique and further
enabling multiple symmetry assumption cycles to reach many more cognates in the
transgraph. We further identify cognate synonyms to obtain many-to-many
translation pairs. This paper utilizes four datasets: one Austronesian
low-resource language and three Indo-European high-resource languages. We use
three constraint-based methods from our previous work, the Inverse Consultation
method and translation pairs generated from the Cartesian product of input
dictionaries as baselines. We evaluate our result using the metrics of
precision, recall and F-score. Our customizable approach allows the user to
conduct cross-validation to predict the optimal hyperparameters (cognate
threshold and cognate synonym threshold) with various combinations of
heuristics and the number of symmetry assumption cycles to gain the highest
F-score. Our proposed methods have statistically significant improvement of
precision and F-score compared to our previous constraint-based methods. The
results show that our method demonstrates the potential to complement other
bilingual dictionary creation methods like word alignment models using parallel
corpora for high-resource languages while well handling low-resource languages.
- Abstract(参考訳): 並列コーパスと同等のコーパスの欠如により、低リソース言語ではバイリンガル語彙抽出が難しい課題となっている。
ピボット言語とコグネート認識アプローチは、そのような言語に二言語レキシコンを誘導するのに有用であることが証明されている。
本稿では、近年のピボットベースの帰納法から制約を延長し、さらに複数の対称性仮定サイクルを変換でより多くのコニャートに到達させることにより、近縁言語に対する制約ベースのバイリンガル語彙誘導を提案する。
さらにコグネート同義語を同定し、多対多の翻訳対を得る。
本稿では,Austronesian Low-Resource Language と Indo-European High-Resource Language の4つのデータセットを利用する。
本稿では,入力辞書のCartesian積から生成した逆コンサルテーション法と翻訳ペアをベースラインとして,制約に基づく3つの手法を用いる。
精度,リコール,f-scoreの指標を用いて結果を評価する。
我々のカスタマイズ可能なアプローチでは、最適なハイパーパラメータ(コグネートしきい値とコグネートシノニムしきい値)をヒューリスティックスと対称性仮定サイクルの数の組み合わせで予測し、最高Fスコアを得ることができる。
提案手法は,従来の制約に基づく手法と比較して統計的に精度とFスコアが向上した。
その結果,低リソース言語をうまく処理しながら並列コーパスを用いた単語アライメントモデルなど,他のバイリンガル辞書作成手法を補完する可能性が示唆された。
関連論文リスト
- Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Transfer learning and subword sampling for asymmetric-resource
one-to-many neural translation [14.116412358534442]
低リソース言語のためのニューラルマシン翻訳を改善する方法について概説する。
人工的に制限された3つの翻訳タスクと1つの現実世界タスクでテストが行われる。
実験は、特にスケジュールされたマルチタスク学習、denoising autoencoder、サブワードサンプリングに肯定的な効果を示す。
論文 参考訳(メタデータ) (2020-04-08T14:19:05Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。