論文の概要: Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation
- arxiv url: http://arxiv.org/abs/2603.15227v1
- Date: Mon, 16 Mar 2026 13:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.295024
- Title: Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation
- Title(参考訳): 機械翻訳のための双方向中国語・英語パッシブ文データセット
- Authors: Xinyue Ma, Pol Pastells, Mireia Farrús, Mariona Taulé,
- Abstract要約: 本稿では、中国語と英語の5つのパラレルコーパスから抽出した受動的文の双方向マルチドメインデータセットを提案する。
データセットは73,965のパラレル文対(2,358,731の英単語、3,498,229の漢字)からなる。
我々は,我々のデータセットを用いて2つの最先端オープンソースMTシステムと,テストセットを用いた4つの商用モデルを評価した。
- 参考スコア(独自算出の注目度): 3.3573302174193973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine Translation (MT) evaluation has gone beyond metrics, towards more specific linguistic phenomena. Regarding English-Chinese language pairs, passive sentences are constructed and distributed differently due to language variation, thus need special attention in MT. This paper proposes a bidirectional multi-domain dataset of passive sentences, extracted from five Chinese-English parallel corpora and annotated automatically with structure labels according to human translation, and a test set with manually verified annotation. The dataset consists of 73,965 parallel sentence pairs (2,358,731 English words, 3,498,229 Chinese characters). We evaluate two state-of-the-art open-source MT systems with our dataset, and four commercial models with the test set. The results show that, unlike humans, models are more influenced by the voice of the source text rather than the general voice usage of the source language, and therefore tend to maintain the passive voice when translating a passive in either direction. However, models demonstrate some knowledge of the low frequency and predominantly negative context of Chinese passives, leading to higher voice consistency with human translators in English-to-Chinese translation than in Chinese-to-English translation. Commercial NMT models scored higher in metric evaluations, but LLMs showed a better ability to use diverse alternative translations. Datasets and annotation script will be shared upon request.
- Abstract(参考訳): 機械翻訳(MT)の評価はメトリクスを超えて、より具体的な言語現象へと進んでいる。
英語と中国語のペアについて,受動的文は言語の変化によって異なる形で構築・配布されているため,MTでは特に注意が必要である。本論文では,中国語と中国語の並列コーパスから抽出され,人文の翻訳に応じて構造ラベルが自動で注釈付けされる,受動的文の双方向マルチドメインデータセットと,手作業によるアノテーションによるテストセットを提案する。
データセットは73,965のパラレル文対(2,358,731の英単語、3,498,229の漢字)で構成されている。
我々は,我々のデータセットを用いて2つの最先端オープンソースMTシステムと,テストセットを用いた4つの商用モデルを評価した。
その結果,人間とは異なり,モデルがソース言語の一般的な音声使用よりも,原文の音声の影響を受けやすいため,どちらの方向でも受動的音声を翻訳する場合は受動的音声を継続する傾向が示唆された。
しかし、中国語の受動音の低頻度、主に負の文脈に関するいくつかの知識をモデルが示しており、中国語から中国語への翻訳よりも人間の翻訳者との音声の整合性が高い。
商用のNMTモデルはメートル法評価では高い結果を得たが、LSMは多種多様な代替翻訳を使用する能力を示した。
データセットとアノテーションのスクリプトは、要求に応じて共有される。
関連論文リスト
- Semantic Prosody in Machine Translation: the English-Chinese Case of Passive Structures [3.3573302174193973]
本稿では,特定の構造の意味的韻律について機械翻訳モデルを教えるアプローチを提案する。
我々は,中国語 BEI 受動音に着目し,英語と中国語の文対のデータセットを作成し,BEI 受動音の否定的意味韻律を実証する。
次に, OPUS-MT, NLLB-600M, mBART50モデルを英語・中国語翻訳タスクのデータセットで微調整する。
論文 参考訳(メタデータ) (2025-10-16T13:16:59Z) - Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。