論文の概要: ViDia2Std: A Parallel Corpus and Methods for Low-Resource Vietnamese Dialect-to-Standard Translation
- arxiv url: http://arxiv.org/abs/2603.10211v1
- Date: Tue, 10 Mar 2026 20:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.677936
- Title: ViDia2Std: A Parallel Corpus and Methods for Low-Resource Vietnamese Dialect-to-Standard Translation
- Title(参考訳): ViDia2Std:低リソースベトナム方言-標準翻訳のための並列コーパスと方法
- Authors: Khoa Anh Ta, Nguyen Van Dinh, Kiet Van Nguyen,
- Abstract要約: ViDia2Stdは、方言から標準ベトナム語への翻訳に初めて手動で注釈付けされた並列コーパスである。
以前のデータセットとは異なり、ViDia2Stdは中央、南部、非標準北部の様々な方言を含んでいる。
合意率は86%(北)、82%(中央)、85%(南)がViDia2Stdである。
- 参考スコア(独自算出の注目度): 5.3220011447194215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vietnamese exhibits extensive dialectal variation, posing challenges for NLP systems trained predominantly on standard Vietnamese. Such systems often underperform on dialectal inputs, especially from underrepresented Central and Southern regions. Previous work on dialect normalization has focused narrowly on Central-to-Northern dialect transfer using synthetic data and limited dialectal diversity. These efforts exclude Southern varieties and intra-regional variants within the North. We introduce ViDia2Std, the first manually annotated parallel corpus for dialect-to-standard Vietnamese translation covering all 63 provinces. Unlike prior datasets, ViDia2Std includes diverse dialects from Central, Southern, and non-standard Northern regions often absent from existing resources, making it the most dialectally inclusive corpus to date. The dataset consists of over 13,000 sentence pairs sourced from real-world Facebook comments and annotated by native speakers across all three dialect regions. To assess annotation consistency, we define a semantic mapping agreement metric that accounts for synonymous standard mappings across annotators. Based on this criterion, we report agreement rates of 86% (North), 82% (Central), and 85% (South). We benchmark several sequence-to-sequence models on ViDia2Std. mBART-large-50 achieves the best results (BLEU 0.8166, ROUGE-L 0.9384, METEOR 0.8925), while ViT5-base offers competitive performance with fewer parameters. ViDia2Std demonstrates that dialect normalization substantially improves downstream tasks, highlighting the need for dialect-aware resources in building robust Vietnamese NLP systems.
- Abstract(参考訳): ベトナム語は幅広い方言のバリエーションを示し、標準ベトナムで主に訓練されたNLPシステムの課題を提起している。
このようなシステムはしばしば方言の入力、特に中南部で表現されていない部分で性能が劣る。
方言の正規化に関するこれまでの研究は、合成データと限られた方言の多様性を用いた中北方言の移動に焦点を当ててきた。
これらの取り組みは北部の南部品種と地域内品種を除外している。
ViDia2Stdは、63の州にまたがる方言から標準ベトナム語への翻訳において、初めて手動で注釈付けされた並列コーパスである。
以前のデータセットとは異なり、ViDia2Stdには、中央、南部、非標準北部の様々な方言があり、しばしば既存の資源から欠落している。
このデータセットは、現実世界のFacebookコメントから得られた13,000以上の文ペアで構成され、3つの方言領域すべてにわたるネイティブスピーカーによって注釈付けされている。
アノテーションの一貫性を評価するために,アノテーション間の同義的な標準マッピングを考慮に入れた意味マッピング合意尺度を定義する。
この基準に基づき、合意率は86%(北)、82%(中央)、85%(南)と報告する。
我々はViDia2Std上でシーケンス・ツー・シーケンス・モデルをいくつかベンチマークする。
mBART-large-50は最良の結果(BLEU 0.8166、ROUGE-L 0.9384、METEOR 0.8925)を得る一方、ViT5ベースは少ないパラメータで競合性能を提供する。
ViDia2Stdは、ベトナムの強靭なNLPシステムを構築する上で、方言を意識したリソースの必要性を強調し、方言正規化がダウンストリームタスクを大幅に改善することを示した。
関連論文リスト
- INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects [10.663878830823043]
インドではヒンディー語が世界で3番目に話されている言語(6億人以上の話者)であるにもかかわらず、多くの方言はいまだに表現されていない。
我々は,11の方言と2つの言語(ヒンディー語とオディア語)にまたがる13k文対の並列コーパスであるINDIC-DIALECTを紹介する。
論文 参考訳(メタデータ) (2026-01-15T13:40:27Z) - DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges [0.964547614383472]
ベトナム全土で話されている63の方言の多様性を包括的に分析したベトナム語多方言データセットについて紹介する。
我々のデータセットは、約19,000の発話からなる102.56時間の音声からなり、関連するテキストには120万以上の単語が含まれている。
論文 参考訳(メタデータ) (2024-10-04T14:17:56Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Quantifying Language Variation Acoustically with Few Resources [4.162663632560141]
ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-05T15:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。