Fugu-MT 論文翻訳(概要): Use of Transformer-Based Models for Word-Level Transliteration of the Book of the Dean of Lismore

論文の概要: Use of Transformer-Based Models for Word-Level Transliteration of the Book of the Dean of Lismore

arxiv url: http://arxiv.org/abs/2205.11370v1
Date: Mon, 23 May 2022 15:04:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-25 01:57:19.465287
Title: Use of Transformer-Based Models for Word-Level Transliteration of the Book of the Dean of Lismore
Title（参考訳）: リズモア学部長書の単語レベルの音訳におけるトランスフォーマーモデルの利用
Authors: Edward Gow-Smith, Mark McConville, William Gillies, Jade Scott, Roibeard \'O Maolalaigh
Abstract要約: リスモアのディーンの書(英語: Book of the Dean of Lismore)は、非標準的な正書法で書かれた16世紀のスコットランド・ゲールの写本である。本稿では,トランスフォーマーモデルを用いて,BDLのテキストを標準化された正書法に翻訳する問題を概説する。キャラクタレベルのBLEUスコアは54.15で、最高のモデル、スコットランド・ゲール語ウィキペディアのテキストで事前訓練されたBARTアーキテクチャである。
参考スコア（独自算出の注目度）: 0.13124513975412255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Book of the Dean of Lismore (BDL) is a 16th-century Scottish Gaelic manuscript written in a non-standard orthography. In this work, we outline the problem of transliterating the text of the BDL into a standardised orthography, and perform exploratory experiments using Transformer-based models for this task. In particular, we focus on the task of word-level transliteration, and achieve a character-level BLEU score of 54.15 with our best model, a BART architecture pre-trained on the text of Scottish Gaelic Wikipedia and then fine-tuned on around 2,000 word-level parallel examples. Our initial experiments give promising results, but we highlight the shortcomings of our model, and discuss directions for future work.
Abstract（参考訳）: BDL(The Book of the Dean of Lismore)は16世紀のスコットランド・ゲールの写本。本研究では,BDLのテキストを標準化された正書法に翻訳する問題を概説し,トランスフォーマーモデルを用いて探索実験を行う。特に、単語レベルの翻訳の課題に焦点をあて、最高のモデルで文字レベルのBLEUスコア54.15を達成し、スコットランド・ゲール語ウィキペディアのテキストで事前訓練されたBARTアーキテクチャを、約2000の単語レベルの並列例で微調整した。最初の実験は有望な結果をもたらすが、モデルの欠点を強調し、今後の作業の方向性について議論する。

関連論文リスト

Introducing A Bangla Sentence - Gloss Pair Dataset for Bangla Sign Language Translation and Research [0.4077787659104315]
そこで,Bangla-SGPについて紹介する。我々のデータセットは1000の高品質なBangla文からなり、プロのシグナーによって手動でグロスシーケンスに注釈付けされる。
論文参考訳（メタデータ） (2025-11-11T17:41:12Z)
The InviTE Corpus: Annotating Invectives in Tudor English Texts for Computational Modeling [8.04579348985549]
我々は、事前処理とデータ選択を通じて生データから反復的なアノテーションプロセスまで、ワークフローの概要を述べる。 InviTEコーパス(InviTE corpus) - ほぼ2000年の近世英語(EModE)文のコーパス。
論文参考訳（メタデータ） (2025-09-26T13:42:32Z)
Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT [0.6919386619690135]
著者属性(英: Authorship Attribution)とは、あるテキストの原作者を特定するために、テキストの適切な特徴づけを作成するタスクである。英語、スペイン語、中国語など他の言語にも大きな進歩があったが、バングラはこの分野の包括的な研究を欠いている。既存のシステムは、著者数が増えるとスケーラビリティが低下し、著者1人当たりのサンプル数が少なくなる。
論文参考訳（メタデータ） (2024-03-08T18:42:59Z)
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。我々の手法は文の埋め込みを大幅に改善できる。
論文参考訳（メタデータ） (2023-05-16T03:53:30Z)
Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22 [4.382973957294345]
本稿では,機械翻訳ワークショップ2022手話翻訳タスクのためにカタルーニャ大学ポリテシカ校で開発されたシステムについて述べる。本研究では、Fairseqモデリングツールキットで実装されたTransformerモデルを用いる。我々は,語彙サイズ,データ拡張手法,ENIX-14Tデータセットを用いた事前学習実験を行った。
論文参考訳（メタデータ） (2022-12-02T12:42:24Z)
Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文参考訳（メタデータ） (2022-10-17T04:34:09Z)
Probing for Understanding of English Verb Classes and Alternations in Large Pre-trained Language Models [4.243426191555036]
本研究では,大規模事前学習言語モデルの埋め込みにおいて,動詞の交替クラスがエンコードされる範囲について検討する。 PLMのコンテキスト埋め込みは、多くのクラスにおけるタスクに対する驚くほど高い精度を実現する。
論文参考訳（メタデータ） (2022-09-11T08:04:40Z)
Analyzing the Use of Character-Level Translation with Sparse and Noisy Datasets [20.50917929755389]
キャラクタレベルのモデルでは、スパースやノイズの多いデータセットに適用すると、翻訳されていない単語の数が40%以上削減されることがわかった。文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。ワードノーキャラクタ-BLEUは、BLEUの長さに対する感度のため、人間の判断と完全に相関しない。
論文参考訳（メタデータ） (2021-09-27T07:35:47Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文参考訳（メタデータ） (2021-05-19T07:29:08Z)
Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文参考訳（メタデータ） (2020-10-12T19:42:25Z)
Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-19T03:30:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。