論文の概要: Use of Transformer-Based Models for Word-Level Transliteration of the
Book of the Dean of Lismore
- arxiv url: http://arxiv.org/abs/2205.11370v1
- Date: Mon, 23 May 2022 15:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 01:57:19.465287
- Title: Use of Transformer-Based Models for Word-Level Transliteration of the
Book of the Dean of Lismore
- Title(参考訳): リズモア学部長書の単語レベルの音訳におけるトランスフォーマーモデルの利用
- Authors: Edward Gow-Smith, Mark McConville, William Gillies, Jade Scott,
Roibeard \'O Maolalaigh
- Abstract要約: リスモアのディーンの書(英語: Book of the Dean of Lismore)は、非標準的な正書法で書かれた16世紀のスコットランド・ゲールの写本である。
本稿では,トランスフォーマーモデルを用いて,BDLのテキストを標準化された正書法に翻訳する問題を概説する。
キャラクタレベルのBLEUスコアは54.15で、最高のモデル、スコットランド・ゲール語ウィキペディアのテキストで事前訓練されたBARTアーキテクチャである。
- 参考スコア(独自算出の注目度): 0.13124513975412255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Book of the Dean of Lismore (BDL) is a 16th-century Scottish Gaelic
manuscript written in a non-standard orthography. In this work, we outline the
problem of transliterating the text of the BDL into a standardised orthography,
and perform exploratory experiments using Transformer-based models for this
task. In particular, we focus on the task of word-level transliteration, and
achieve a character-level BLEU score of 54.15 with our best model, a BART
architecture pre-trained on the text of Scottish Gaelic Wikipedia and then
fine-tuned on around 2,000 word-level parallel examples. Our initial
experiments give promising results, but we highlight the shortcomings of our
model, and discuss directions for future work.
- Abstract(参考訳): BDL(The Book of the Dean of Lismore)は16世紀のスコットランド・ゲールの写本。
本研究では,BDLのテキストを標準化された正書法に翻訳する問題を概説し,トランスフォーマーモデルを用いて探索実験を行う。
特に、単語レベルの翻訳の課題に焦点をあて、最高のモデルで文字レベルのBLEUスコア54.15を達成し、スコットランド・ゲール語ウィキペディアのテキストで事前訓練されたBARTアーキテクチャを、約2000の単語レベルの並列例で微調整した。
最初の実験は有望な結果をもたらすが、モデルの欠点を強調し、今後の作業の方向性について議論する。
関連論文リスト
- Authorship Attribution in Bangla Literature (AABL) via Transfer Learning
using ULMFiT [0.6919386619690135]
著者属性(英: Authorship Attribution)とは、あるテキストの原作者を特定するために、テキストの適切な特徴づけを作成するタスクである。
英語、スペイン語、中国語など他の言語にも大きな進歩があったが、バングラはこの分野の包括的な研究を欠いている。
既存のシステムは、著者数が増えるとスケーラビリティが低下し、著者1人当たりのサンプル数が少なくなる。
論文 参考訳(メタデータ) (2024-03-08T18:42:59Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22 [4.382973957294345]
本稿では,機械翻訳ワークショップ2022手話翻訳タスクのためにカタルーニャ大学ポリテシカ校で開発されたシステムについて述べる。
本研究では、Fairseqモデリングツールキットで実装されたTransformerモデルを用いる。
我々は,語彙サイズ,データ拡張手法,ENIX-14Tデータセットを用いた事前学習実験を行った。
論文 参考訳(メタデータ) (2022-12-02T12:42:24Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Probing for Understanding of English Verb Classes and Alternations in
Large Pre-trained Language Models [4.243426191555036]
本研究では,大規模事前学習言語モデルの埋め込みにおいて,動詞の交替クラスがエンコードされる範囲について検討する。
PLMのコンテキスト埋め込みは、多くのクラスにおけるタスクに対する驚くほど高い精度を実現する。
論文 参考訳(メタデータ) (2022-09-11T08:04:40Z) - Analyzing the Use of Character-Level Translation with Sparse and Noisy
Datasets [20.50917929755389]
キャラクタレベルのモデルでは、スパースやノイズの多いデータセットに適用すると、翻訳されていない単語の数が40%以上削減されることがわかった。
文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。
ワードノーキャラクタ-BLEUは、BLEUの長さに対する感度のため、人間の判断と完全に相関しない。
論文 参考訳(メタデータ) (2021-09-27T07:35:47Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Long Text Generation by Modeling Sentence-Level and Discourse-Level
Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。
我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2021-05-19T07:29:08Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。