論文の概要: Improving Arabic Diacritization by Learning to Diacritize and Translate
- arxiv url: http://arxiv.org/abs/2109.14150v1
- Date: Wed, 29 Sep 2021 02:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:54:06.593146
- Title: Improving Arabic Diacritization by Learning to Diacritize and Translate
- Title(参考訳): 読字・翻訳の学習によるアラビア語読字の改善
- Authors: Brian Thompson, Ali Alshehri
- Abstract要約: そこで本研究では,ダイアログ化と翻訳の両方にモデルを訓練するマルチタスク学習手法を提案する。
我々はこの手法をPenn Arabic Treebankに適用し、最新の単語誤り率4.79%を報告した。
- 参考スコア(独自算出の注目度): 4.2563102052952075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel multitask learning method for diacritization which trains
a model to both diacritize and translate. Our method addresses data sparsity by
exploiting large, readily available bitext corpora. Furthermore, translation
requires implicit linguistic and semantic knowledge, which is helpful for
resolving ambiguities in the diacritization task. We apply our method to the
Penn Arabic Treebank and report a new state-of-the-art word error rate of
4.79%. We also conduct manual and automatic analysis to better understand our
method and highlight some of the remaining challenges in diacritization.
- Abstract(参考訳): 本稿では,モデルのダイアログ化と翻訳を両立させるマルチタスク学習手法を提案する。
提案手法は,大規模で容易に利用可能なbitextコーパスを活用し,データのスパーシティに対処する。
さらに、翻訳には暗黙の言語的・意味的知識が必要であり、診断タスクの曖昧さを解決するのに役立ちます。
我々はこの手法をPenn Arabic Treebankに適用し、最新の単語誤り率4.79%を報告した。
また,本手法をよりよく理解するために手動および自動分析を行い,診断における課題のいくつかを強調した。
関連論文リスト
- Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。
本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。
我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文 参考訳(メタデータ) (2024-05-24T14:56:36Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - An Adversarial Multi-Task Learning Method for Chinese Text Correction
with Semantic Detection [0.0]
中国語文文脈における文字認識のモデル化と検出能力を高めるために, 逆多タスク学習法を提案する。
モンテカルロ木探索戦略とポリシーネットワークを導入し,意味検出による効率の良い中国語テキスト修正作業を実現する。
論文 参考訳(メタデータ) (2023-06-28T15:46:00Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Improving Speech Translation by Understanding and Learning from the
Auxiliary Text Translation Task [26.703809355057224]
我々は,タスクがマルチタスク学習フレームワークにおけるメインタスクに与える影響を理解するために,詳細な分析を行う。
解析により、マルチタスク学習は、異なるモダリティから同様のデコーダ表現を生成する傾向があることを確認した。
これらの知見に触発されて,翻訳品質を向上させる3つの方法を提案する。
論文 参考訳(メタデータ) (2021-07-12T23:53:40Z) - A Simple Post-Processing Technique for Improving Readability Assessment
of Texts using Word Mover's Distance [0.0]
我々は、ランキングテキストのWord Mover's Distance(WMD)を組み込むことで、自動可読性評価の従来の手法を改善する。
フィリピン, ドイツ語, 英語の3つの多言語データセットに対する実験の結果, ポストプロセッシング技術は, 以前のバニラモデルやランキングベースモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-12T13:51:38Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。