論文の概要: A Aelf-supervised Tibetan-chinese Vocabulary Alignment Method Based On
Adversarial Learning
- arxiv url: http://arxiv.org/abs/2110.01258v1
- Date: Mon, 4 Oct 2021 08:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 22:08:39.858551
- Title: A Aelf-supervised Tibetan-chinese Vocabulary Alignment Method Based On
Adversarial Learning
- Title(参考訳): 逆学習に基づくAelf制御チベット-チン語語彙アライメント法
- Authors: Enshuai Hou and Jie zhu
- Abstract要約: 本稿では,2つの単言語コーパスと少数のシード辞書を用いて,シード辞書を用いた半教師付き手法と自己教師型対人訓練法を学習する。
チベット語音節の漢字は、チベット語音節と漢字との弱い意味的相関を反映して、実験結果が良くない。
- 参考スコア(独自算出の注目度): 3.553493344868414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tibetan is a low-resource language. In order to alleviate the shortage of
parallel corpus between Tibetan and Chinese, this paper uses two monolingual
corpora and a small number of seed dictionaries to learn the semi-supervised
method with seed dictionaries and self-supervised adversarial training method
through the similarity calculation of word clusters in different embedded
spaces and puts forward an improved self-supervised adversarial learning method
of Tibetan and Chinese monolingual data alignment only. The experimental
results are as follows. First, the experimental results of Tibetan syllables
Chinese characters are not good, which reflects the weak semantic correlation
between Tibetan syllables and Chinese characters; second, the seed dictionary
of semi-supervised method made before 10 predicted word accuracy of 66.5
(Tibetan - Chinese) and 74.8 (Chinese - Tibetan) results, to improve the
self-supervision methods in both language directions have reached 53.5
accuracy.
- Abstract(参考訳): チベット語は低資源言語である。
チベット語と中国語の並列コーパスの不足を緩和するために,2つの単言語コーパスと少数の種辞書を用いて,種辞書と自己教師付き副学習法とを組込み空間内の単語集合の類似度計算によって学習し,チベット語と中国語の単言語データアライメントのみを用いた自己教師付き副学習法を前進させる。
実験結果は以下の通りである。
第1に,チベット語の音節と漢字の意味的相関が弱いこと,第2に,単語の精度が66.5(チベット語 - 中国語)と74.8(チベット語 - チベット語)と予測される単語の精度が66.5(チベット語 - 中国語 - チベット語)で予測される半教師方式のシード辞書が,両言語方向の自己監督法の改善に寄与した。
関連論文リスト
- TSCheater: Generating High-Quality Tibetan Adversarial Texts via Visual Similarity [3.1854179230109363]
本稿では,TSCheater という,チベットの新たなテキスト生成手法を提案する。
チベット語のエンコーディングの特徴と、視覚的に類似した音節が類似した意味を持つ特徴を考える。
実験的に、TSCheaterは攻撃の有効性、摂動、意味的類似性、視覚的類似性、人間の受容において、既存の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-03T10:57:19Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - A Chinese Spelling Check Framework Based on Reverse Contrastive Learning [4.60495447017298]
本稿では,中国語のスペルチェックのための新しいフレームワークを提案する。
具体的には,モデルに類似事例間の合意を最小化するよう強制する,逆対比学習戦略を提案する。
実験結果から,本フレームワークはモデル非依存であり,既存の中国語スペルチェックモデルと組み合わせることで,最先端の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-25T08:05:38Z) - Don't Forget Cheap Training Signals Before Building Unsupervised
Bilingual Word Embeddings [64.06041300946517]
我々は、教師なしBWE手法を開発する際には、容易にアクセスできる言語間信号が常に考慮されるべきであると主張している。
このような安価な信号はうまく動作し、遠隔言語対においてより複雑な教師なし手法により性能が向上することを示す。
この結果から,BWEを構築する際には,遠隔言語であっても,これらの学習信号を無視すべきでないことが示された。
論文 参考訳(メタデータ) (2022-05-31T12:00:55Z) - TiBERT: Tibetan Pre-trained Language Model [2.9554549423413303]
本稿では,チベットのWebサイトから大規模なトレーニングデータを収集し,センテンスピースを用いてコーパス内の単語の99.95$%をカバーできる語彙を構築する。
テキスト分類と質問生成の下流タスクにTiBERTを適用し、古典モデルと多言語事前学習モデルと比較する。
論文 参考訳(メタデータ) (2022-05-15T14:45:08Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT [22.701728185474195]
まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。
次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。
提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-04-29T23:40:08Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。