論文の概要: Text normalization for low-resource languages: the case of Ligurian
- arxiv url: http://arxiv.org/abs/2206.07861v2
- Date: Fri, 22 Dec 2023 06:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 19:13:23.931537
- Title: Text normalization for low-resource languages: the case of Ligurian
- Title(参考訳): 低リソース言語に対するテキスト正規化--Ligurianの場合
- Authors: Stefano Lusito and Edoardo Ferrante and Jean Maillard
- Abstract要約: 逆変換と適切なトークン化を用いることで、非常に低いエラー率を達成するために、コンパクトなトランスフォーマーベースモデルを訓練できることが示される。
正規化バージョンと組み合わせた4,394のLigurian文と、Ligurian用の最初のオープンソースモノリンガルコーパスを収集する。
- 参考スコア(独自算出の注目度): 8.27203430509479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text normalization is a crucial technology for low-resource languages which
lack rigid spelling conventions or that have undergone multiple spelling
reforms. Low-resource text normalization has so far relied upon hand-crafted
rules, which are perceived to be more data efficient than neural methods. In
this paper we examine the case of text normalization for Ligurian, an
endangered Romance language. We collect 4,394 Ligurian sentences paired with
their normalized versions, as well as the first open source monolingual corpus
for Ligurian. We show that, in spite of the small amounts of data available, a
compact transformer-based model can be trained to achieve very low error rates
by the use of backtranslation and appropriate tokenization.
- Abstract(参考訳): テキストの正規化は、厳格な綴り規則を欠いた低リソース言語や、複数の綴り改革を行った言語にとって重要な技術である。
これまでのところ、低リソースのテキスト正規化は手作りのルールに依存しており、これはニューラルネットワークよりもデータ効率が高いと考えられている。
本稿では,絶滅危惧言語であるリグリア語のテキスト正規化事例について検討する。
正規化バージョンと組み合わせた4,394のLigurian文と、Ligurian用の最初のオープンソースモノリンガルコーパスを収集する。
少ないデータ量にもかかわらず、バックトランスや適切なトークン化を用いることで、コンパクトなトランスフォーマーベースのモデルを非常に低いエラー率を達成するように訓練できることを実証する。
関連論文リスト
- Medical Concept Normalization in a Low-Resource Setting [0.0]
低リソース環境における医療概念正規化の課題について検討する。
ドイツの医療オンラインフォーラムからの投稿からなるデータセットには、統一医療言語システムの概念が注釈付けされている。
実験により、多言語トランスフォーマーベースのモデルが文字列類似性手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-06T10:19:32Z) - Historical German Text Normalization Using Type- and Token-Based Language Modeling [0.0]
本報告では, パラレルコーパスで訓練した1700-1900年頃のドイツ語文文の正規化システムを提案する。
提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。
広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。
論文 参考訳(メタデータ) (2024-09-04T16:14:05Z) - Mitigating Translationese in Low-resource Languages: The Storyboard Approach [9.676710061071809]
本稿では,より流動的で自然な文を引き出すために,ストーリーボードを活用した新しいデータ収集手法を提案する。
提案手法では,視覚刺激のあるネイティブ話者をストーリーボード形式で提示し,その記述を原文に直接露出することなく収集する。
従来のテキスト翻訳手法とストーリーボードによるアプローチを,精度と流布率の観点から総合評価した。
論文 参考訳(メタデータ) (2024-07-14T10:47:03Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - A Chat About Boring Problems: Studying GPT-based text normalization [22.64840464909988]
少数のシナリオにおいて,テキスト正規化のための大言語モデルの能力を示す。
LLMによるテキスト正規化は、上位正規化システムよりも40%低い誤差率を達成する。
テキスト正規化エラーの新しい分類法を作成し、GPT-3.5-TurboとGPT-4.0の結果に適用する。
論文 参考訳(メタデータ) (2023-09-23T16:32:59Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - An End-to-end Chinese Text Normalization Model based on Rule-guided
Flat-Lattice Transformer [37.0774363352316]
本稿では,漢字を直接入力として受け入れるエンドツーエンドの中国語テキスト正規化モデルを提案する。
また、中国語のテキスト正規化のための、初めて一般公開された大規模データセットもリリースしました。
論文 参考訳(メタデータ) (2022-03-31T11:19:53Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。