論文の概要: Tone prediction and orthographic conversion for Basaa
- arxiv url: http://arxiv.org/abs/2210.06986v1
- Date: Thu, 13 Oct 2022 12:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:50:07.652686
- Title: Tone prediction and orthographic conversion for Basaa
- Title(参考訳): basaaのトーン予測と正書法変換
- Authors: Ilya Nikitin, Brian O'Connor, Anastasia Safonova
- Abstract要約: 本稿では,宣教師のバサア正書法を公式正書法に翻訳するためのSeq2seqアプローチを提案する。
本モデルは, BERTを用いたバサア宣教師と公式正書法コーパスを用いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a seq2seq approach for transliterating missionary
Basaa orthographies into the official orthography. Our model uses pre-trained
Basaa missionary and official orthography corpora using BERT. Since Basaa is a
low-resource language, we have decided to use the mT5 model for our project.
Before training our model, we pre-processed our corpora by eliminating
one-to-one correspondences between spellings and unifying characters variably
containing either one to two characters into single-character form. Our best
mT5 model achieved a CER equal to 12.6747 and a WER equal to 40.1012.
- Abstract(参考訳): 本稿では,宣教師正書法を公式正書法に変換するためのseq2seq手法を提案する。
本モデルは, BERTを用いたバサア宣教師と公式正書法コーパスを用いた。
Basaaは低リソース言語なので、mT5モデルをプロジェクトに使うことにしました。
モデルをトレーニングする前に、スペルと1文字から2文字を可変に1文字から1文字までの対応を取り除き、コーパスを前処理した。
我々の最高のmT5モデルは、CERが12.6747、WERが40.1012である。
関連論文リスト
- LokiLM: Technical Report [0.0]
500Bトークンでトレーニングされた1.4Bパラメータ大言語モデルであるLokiLMを紹介する。
LokiLMは1.5B以下のパラメータを持つモデル間で最先端のパフォーマンスを実現する。
その有望なパフォーマンスにもかかわらず、LokiLMは、TruthfulQAベンチマークにおいて、必要な量の幻覚とスコアを示しています。
論文 参考訳(メタデータ) (2024-07-10T05:05:47Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - Bangla Grammatical Error Detection Using T5 Transformer Model [0.0]
本稿では,テキスト変換器(T5言語モデル)を用いたバングラ語の文法的誤り検出手法を提案する。
T5モデルは、主に翻訳用に設計されており、このタスクのためには特別に設計されていないため、エラー検出のタスクに適応するためには、広範な後処理が必要であった。
実験により,Banglaにおける文法的誤りの検出において,T5モデルが低Levenshtein距離を達成可能であることが示されたが,処理後処理は最適性能を実現するために不可欠である。
論文 参考訳(メタデータ) (2023-03-19T09:24:48Z) - idT5: Indonesian Version of Multilingual T5 Transformer [0.0]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。
本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。
論文 参考訳(メタデータ) (2023-02-02T03:56:16Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Predicting Issue Types with seBERT [85.74803351913695]
seBERT は BERT アーキテクチャに基づいて開発されたモデルであるが、ゼロからソフトウェア工学のデータで訓練された。
問題型予測の課題に対して,NLBSEの課題に対して,このモデルを微調整した。
我々のモデルは、リコールとプリシシオの3つのイシュータイプすべてに対して、F1スコア全体の85.7%を達成するためのベースラインであるfastTextを支配している。
論文 参考訳(メタデータ) (2022-05-03T06:47:13Z) - Open Source Handwritten Text Recognition on Medieval Manuscripts using
Mixed Models and Document-Specific Finetuning [0.0]
本稿では,ドイツの中世写本における実践的かつオープンソースの手書き文字認識(HTR)の課題について論じる。
文書固有の学習を必要とせずに、箱外で適用可能な混合認識モデルを構築するための取り組みについて報告する。
混合モデルを訓練するために、ゴシックとバスターダの2つの広く使われている筆跡書体のために、35の写本と12.5kのテキストラインのコーパスを収集しました。
論文 参考訳(メタデータ) (2022-01-19T15:34:19Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。