論文の概要: VietMix: A Naturally Occurring Vietnamese-English Code-Mixed Corpus with Iterative Augmentation for Machine Translation
- arxiv url: http://arxiv.org/abs/2505.24472v1
- Date: Fri, 30 May 2025 11:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.919019
- Title: VietMix: A Naturally Occurring Vietnamese-English Code-Mixed Corpus with Iterative Augmentation for Machine Translation
- Title(参考訳): VietMix: 機械翻訳を反復的に拡張したベトナム英語のコードミキシングコーパス
- Authors: Hieu Tran, Phuong-Anh Nguyen-Le, Huy Nghiem, Quang-Nhan Nguyen, Wei Ai, Marine Carpuat,
- Abstract要約: 機械翻訳システムは、低リソース言語向けのコード混合入力を処理する際に失敗する。
この課題に対処するために、自然発生のベトナム語のテキストを専門の英訳と組み合わせたコード混合コーパスであるVietMixを、並列コーパスでキュレートする。
このリソースを増大させ、補完的な合成データ生成パイプラインを開発した。
- 参考スコア(独自算出の注目度): 13.047103277038175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation systems fail when processing code-mixed inputs for low-resource languages. We address this challenge by curating VietMix, a parallel corpus of naturally occurring code-mixed Vietnamese text paired with expert English translations. Augmenting this resource, we developed a complementary synthetic data generation pipeline. This pipeline incorporates filtering mechanisms to ensure syntactic plausibility and pragmatic appropriateness in code-mixing patterns. Experimental validation shows our naturalistic and complementary synthetic data boost models' performance, measured by translation quality estimation scores, of up to 71.84 on COMETkiwi and 81.77 on XCOMET. Triangulating positive results with LLM-based assessments, augmented models are favored over seed fine-tuned counterparts in approximately 49% of judgments (54-56% excluding ties). VietMix and our augmentation methodology advance ecological validity in neural MT evaluations and establish a framework for addressing code-mixed translation challenges across other low-resource pairs.
- Abstract(参考訳): 機械翻訳システムは、低リソース言語向けのコード混合入力を処理する際に失敗する。
この課題に対処するために、自然発生のベトナム語のテキストを専門の英訳と組み合わせたコード混成の並列コーパスVietMixをキュレートする。
このリソースを増大させ、補完的な合成データ生成パイプラインを開発した。
このパイプラインは、コードミキシングパターンの構文的妥当性と実用的適切性を保証するためのフィルタリング機構を組み込んでいる。
XCOMETでは,COMETkiwiでは71.84,XCOMETでは81.77であった。
LLMをベースとした評価で肯定的な結果が得られたが、改良されたモデルは、種子を微調整したモデルよりも、約49%(結束を除く54-56%)で好まれていた。
VietMixとAugmentation Methodは、ニューラルMT評価における生態学的妥当性を向上し、他の低リソースペア間のコード混合翻訳課題に対処するためのフレームワークを確立する。
関連論文リスト
- Keyword Extraction, and Aspect Classification in Sinhala, English, and Code-Mixed Content [0.0]
本研究では,キーワード抽出,コンテンツフィルタリング,アスペクトベースの銀行コンテンツ分類の改善を目的としたハイブリッドNLP手法を提案する。
このフレームワークは、コード混在および低リソースのバンキング環境におけるブランド評価監視のための正確でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T20:01:34Z) - FUSE : A Ridge and Random Forest-Based Metric for Evaluating MT in Indigenous Languages [2.377892000761193]
本稿では,RaaVaチームのAmerices 2025 Shared Task 3における自動機械翻訳のための評価基準の獲得について述べる。
評価のためのFUSE (Feature-Union Scorer) を導入し,FUSEはリッジ回帰とグラディエントブースティングを統合して翻訳品質をモデル化する。
その結果,FUSE はPearson と Spearman の相関関係を人間の判断と連続的に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T06:58:55Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Synthetic Data Generation and Joint Learning for Robust Code-Mixed Translation [34.57825234659946]
我々は、英語機械翻訳にコード混在(ヒングリッシュとベンガル語)の問題に取り組む。
実世界のコードミキシングテキストのノイズ処理を学習する,頑健な摂動に基づく共同学習モデルRCMTを提案する。
提案手法の評価と総合解析により,最先端のコード混合・ロバスト翻訳法よりもRCMTの方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-25T13:50:11Z) - Categorizing Semantic Representations for Neural Machine Translation [53.88794787958174]
ソースの文脈化表現に分類を導入する。
主な考え方は、スパーシリティとオーバーフィッティングを減らして一般化を強化することである。
MTデータセットを用いた実験により,提案手法は構成一般化誤差率を24%削減することを示した。
論文 参考訳(メタデータ) (2022-10-13T04:07:08Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Sequence-Level Mixed Sample Data Augmentation [119.94667752029143]
本研究は、シーケンス対シーケンス問題に対するニューラルモデルにおける合成行動を促進するための単純なデータ拡張手法を提案する。
我々の手法であるSeqMixは、トレーニングセットから入力/出力シーケンスをソフトに結合することで、新しい合成例を作成する。
論文 参考訳(メタデータ) (2020-11-18T02:18:04Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。