論文の概要: Enhancing Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems
- arxiv url: http://arxiv.org/abs/2403.12024v1
- Date: Mon, 18 Mar 2024 17:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:01:22.204710
- Title: Enhancing Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems
- Title(参考訳): 4つの筆記システムの探索と標準化による法キエン二重翻訳の強化
- Authors: Bo-Han Lu, Yi-Hsuan Lin, En-Shiun Annie Lee, Richard Tzong-Han Tsai,
- Abstract要約: 台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化して訓練済みのLLaMA2-7Bモデルを用いる。
そして、翻訳モデルを用いて、台湾のすべての法キエン文字体系を北キエン漢に標準化し、さらなる性能向上を実現した。
- 参考スコア(独自算出の注目度): 4.150560582918129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation focuses mainly on high-resource languages (HRLs), while low-resource languages (LRLs) like Taiwanese Hokkien are relatively under-explored. This study aims to address this gap by developing a dual translation model between Taiwanese Hokkien and both Traditional Mandarin Chinese and English. We employ a pre-trained LLaMA2-7B model specialized in Traditional Mandarin Chinese to leverage the orthographic similarities between Taiwanese Hokkien Han and Traditional Mandarin Chinese. Our comprehensive experiments involve translation tasks across various writing systems of Taiwanese Hokkien and between Taiwanese Hokkien and other HRLs. We find that the use of a limited monolingual corpus also further improve the model's Taiwanese Hokkien capabilities. We then utilize our translation model to standardize all Taiwanese Hokkien writing systems into Hokkien Han, resulting in further performance improvements. Additionally, we introduce an evaluation method incorporating back-translation and GPT-4 to ensure reliable translation quality assessment even for LRLs. The study contributes to narrowing the resource gap for Taiwanese Hokkien and empirically investigates the advantages and limitations of pre-training and fine-tuning based on LLaMA 2.
- Abstract(参考訳): 機械翻訳は主に高リソース言語(HRL)に重点を置いているが、台湾のホッキエンのような低リソース言語(LRL)は比較的研究が進んでいない。
本研究は,台湾のホッキエンと中国語と英語の二重翻訳モデルを開発することにより,このギャップを解消することを目的とする。
台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化して訓練済みのLLaMA2-7Bモデルを用いる。
本研究の総合的な実験は,台湾のホクキエンや台湾のホクキエン,その他のHRL間の様々な書記システムにおける翻訳作業を含む。
限定的な単言語コーパスの使用により,台湾のホッキエン能力がさらに向上することが判明した。
そして、翻訳モデルを用いて、台湾のすべての法キエン文字体系を北キエン漢に標準化し、さらなる性能向上を実現した。
さらに,逆翻訳とGPT-4を併用した評価手法を導入し,LRLにおいても信頼性の高い翻訳品質評価を実現する。
この研究は台湾のホッキエンの資源ギャップを狭めることに寄与し、LLaMA 2.0に基づく事前学習と微調整の利点と限界を実証的に研究している。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus [12.780273009783102]
台湾のホッキエンは、台湾のマンダリンへの言語シフトにより、使用と地位が低下している。
音声処理における技術の現状が台湾のホッキエンを置き去りにしないよう、我々は台湾のホッキエンの1.5時間データセットをML-SUPERBの隠れ集合に寄贈する。
論文 参考訳(メタデータ) (2023-12-06T01:32:20Z) - Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model [31.68119156599923]
本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
論文 参考訳(メタデータ) (2023-11-29T09:48:34Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A
Case Study in Taiwanese Hokkien [5.272372029223681]
シンガポール、インドネシア、マレーシアなどの東南アジア諸国では、ホーキエン・マンダリンは中国系移民の中で最も広く使われている混成言語である。
本研究では,Hokkien-Mandarin CMデータセットの構築手法を提案し,その制限を緩和し,Sino-Tibetan 言語群における形態的問題を克服し,効率的なHokkien 単語セグメンテーション法を提案する。
論文 参考訳(メタデータ) (2023-01-21T11:04:20Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Evaluating Low-Resource Machine Translation between Chinese and
Vietnamese with Back-Translation [32.25731930652532]
後方翻訳(BT)は広く使われ、ニューラルネットワーク翻訳(NMT)におけるデータ拡張の標準手法の1つとなっている。
ベトナム語、ベトナム語、中国語のNMTモデルと統計的機械翻訳(SMT)モデルの両方に対して、文字ベースおよび単語ベースの設定で合成データの異なるサイズの影響を評価し、比較する。
論文 参考訳(メタデータ) (2020-03-04T17:10:10Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。