論文の概要: SiniticMTError: A Machine Translation Dataset with Error Annotations for Sinitic Languages
- arxiv url: http://arxiv.org/abs/2509.20557v1
- Date: Wed, 24 Sep 2025 20:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.586527
- Title: SiniticMTError: A Machine Translation Dataset with Error Annotations for Sinitic Languages
- Title(参考訳): SiniticMTError: Sinitic言語のためのエラーアノテーション付き機械翻訳データセット
- Authors: Hannah Liu, Junghyun Min, Ethan Yue Heng Cheung, Shou-Yi Hung, Syed Mekael Wasti, Runtong Liang, Shiyao Qian, Shizhao Zheng, Elsie Chan, Ka Ieng Charlotte Lo, Wing Yu Yip, Richard Tzong-Han Tsai, En-Shiun Annie Lee,
- Abstract要約: SiniticMTErrorは、既存の並列コーパス上に構築された新しいデータセットで、エラースパン、エラータイプ、エラー重大度アノテーションを提供する。
我々のデータセットは、エラー検出機能を備えた微調整モデルを利用するためのMTコミュニティのリソースとして役立ちます。
本稿では,言語話者による厳密なアノテーションプロセスについて報告し,アノテーション間の合意,反復的フィードバック,エラータイプおよび重大度パターンの分析を行った。
- 参考スコア(独自算出の注目度): 4.298924990628206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite major advances in machine translation (MT) in recent years, progress remains limited for many low-resource languages that lack large-scale training data and linguistic resources. Cantonese and Wu Chinese are two Sinitic examples, although each enjoys more than 80 million speakers around the world. In this paper, we introduce SiniticMTError, a novel dataset that builds on existing parallel corpora to provide error span, error type, and error severity annotations in machine-translated examples from English to Mandarin, Cantonese, and Wu Chinese. Our dataset serves as a resource for the MT community to utilize in fine-tuning models with error detection capabilities, supporting research on translation quality estimation, error-aware generation, and low-resource language evaluation. We report our rigorous annotation process by native speakers, with analyses on inter-annotator agreement, iterative feedback, and patterns in error type and severity.
- Abstract(参考訳): 近年の機械翻訳(MT)の進歩にもかかわらず、大規模な訓練データや言語資源が欠如している多くの低リソース言語にはまだ進歩が限られている。
CantoneseとWu ChineseはSiniticの2つの例だが、それぞれが世界中の8000万人以上の話者を楽しませている。
本稿では,SiniticMTErrorについて紹介する。SiniticMTErrorは,英語からマンダリン,カントン語,中国語への機械翻訳例において,エラースパン,エラータイプ,エラー重大度アノテーションを提供するために,既存の並列コーパス上に構築された新しいデータセットである。
本データセットは,翻訳品質評価,誤り認識生成,低リソース言語評価などの研究を支援する,エラー検出機能を備えた微調整モデルを利用するための,MTコミュニティのリソースとして機能する。
本稿では,言語話者による厳密なアノテーションプロセスについて報告し,アノテーション間の合意,反復的フィードバック,エラータイプおよび重大度パターンの分析を行った。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - MultiTACRED: A Multilingual Version of the TAC Relation Extraction
Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。
翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。
対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-08T09:48:21Z) - Detecting over/under-translation errors for determining adequacy in
human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。
我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。
本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文 参考訳(メタデータ) (2021-04-01T06:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。