論文の概要: A Case Against Implicit Standards: Homophone Normalization in Machine Translation for Languages that use the Ge'ez Script
- arxiv url: http://arxiv.org/abs/2507.15142v1
- Date: Sun, 20 Jul 2025 22:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.210802
- Title: A Case Against Implicit Standards: Homophone Normalization in Machine Translation for Languages that use the Ge'ez Script
- Title(参考訳): 意図しない標準に対する一事例:Ge'ezスクリプトを用いた機械翻訳におけるホモフォン正規化
- Authors: Hellina Hailu Nigatu, Atnafu Lambebo Tonja, Henok Biadglign Ademtew, Hizkel Mitiku Alemayehu, Negasi Haile Abadi, Tadesse Destaw Belay, Seid Muhie Yimam,
- Abstract要約: 音声正規化(Homophone normalization)は、Amharic Natural Language Processingの文献に適用される事前処理のステップである。
トレーニングデータの代わりにモデル予測に正規化を適用した推論後介入を提案する。
我々の研究は、技術に精通した言語変化に関する広範な議論に寄与し、より多くの言語対応の介入を求めている。
- 参考スコア(独自算出の注目度): 3.5149312379702127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Homophone normalization, where characters that have the same sound in a writing script are mapped to one character, is a pre-processing step applied in Amharic Natural Language Processing (NLP) literature. While this may improve performance reported by automatic metrics, it also results in models that are not able to understand different forms of writing in a single language. Further, there might be impacts in transfer learning, where models trained on normalized data do not generalize well to other languages. In this paper, we experiment with monolingual training and cross-lingual transfer to understand the impacts of normalization on languages that use the Ge'ez script. We then propose a post-inference intervention in which normalization is applied to model predictions instead of training data. With our simple scheme of post-inference normalization, we show that we can achieve an increase in BLEU score of up to 1.03 while preserving language features in training. Our work contributes to the broader discussion on technology-facilitated language change and calls for more language-aware interventions.
- Abstract(参考訳): ホモフォン正規化(Homophone normalization)とは、Amharic Natural Language Processing (NLP)の文献に適用される前処理のステップである。
これは自動メトリクスによって報告されるパフォーマンスを改善する可能性があるが、単一の言語で異なる形式の記述を理解できないモデルも生まれる。
さらには、正規化されたデータに基づいて訓練されたモデルが他の言語にうまく一般化されない、トランスファーラーニングに影響を及ぼす可能性がある。
本稿では,ゲエズ文字を用いた言語に対する正規化の影響を理解するために,単言語学習と言語間移動を実験する。
次に、トレーニングデータの代わりにモデル予測に正規化を適用する、推論後介入を提案する。
推論後正規化の簡単なスキームを用いて,学習時の言語特徴を保ちながらBLEUスコアを最大1.03まで向上させることができることを示す。
我々の研究は、技術に精通した言語変化に関する広範な議論に寄与し、より多くの言語対応の介入を求めている。
関連論文リスト
- What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training [2.8038082486377114]
既存の研究は、音声記録のみに基づいて訓練されたエンドツーエンドモデルから、様々な言語的特徴を復号化することができることを示した。
ここでは、自己教師型Wav2Vec2モデルの内部表現において、オランダ語および語彙情報の符号化をテストする。
論文 参考訳(メタデータ) (2025-06-01T12:25:13Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - We're Calling an Intervention: Exploring Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、ユーザ生成テキストの中核的な特徴と、既存の言語モデルのバイアスとの相互作用を近似する介入を設計する。
非標準テキスト変種への言語モデル適応における介入の適用により、そのような適応がいつ成功したかについて重要な洞察を得る。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Script Normalization for Unconventional Writing of Under-Resourced
Languages in Bilingual Communities [36.578851892373365]
ソーシャルメディアは言語的に表現されていないコミュニティに、彼らの母国語でコンテンツを制作する素晴らしい機会を与えてきた。
本稿では、主にペルソ・アラビア文字で書かれたいくつかの言語に対するスクリプト正規化の問題に対処する。
各種ノイズレベルの合成データと変圧器モデルを用いて, この問題を効果的に再現できることを実証した。
論文 参考訳(メタデータ) (2023-05-25T18:18:42Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。