論文の概要: ComplexityMT: Benchmarking the Interaction Between Text Complexity and Machine Translation
- arxiv url: http://arxiv.org/abs/2606.05421v1
- Date: Wed, 03 Jun 2026 20:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.395038
- Title: ComplexityMT: Benchmarking the Interaction Between Text Complexity and Machine Translation
- Title(参考訳): ComplexityMT: テキスト複雑度と機械翻訳の相互作用のベンチマーク
- Authors: Joseph Marvin Imperial, Junhong Liang, Belal Shoer, Abdullah Barayan, Rodrigo Wilkens, Omar Mussa, Dawn Knight, Eugénio Ribeiro, Ekaterina Kochmar, Sowmya Vajjala, Fernando Alva-Manchego, Harish Tayyar Madabushi,
- Abstract要約: テキストの複雑さと機械翻訳が相互にどのように相互作用し、影響を及ぼすかを評価するための新しい課題である ComplexityMT を紹介する。
我々は,3つのオープンウェイトモデル,1つのクローズドモデル,および2つのタスクに対する商用機械翻訳システムを評価する。
実験の結果,CEFRレベルが高いほどテキストの翻訳が難しくなり,機械翻訳によってターゲットテキストのCEFRレベルが元のソースと比較されることがわかった。
- 参考スコア(独自算出の注目度): 48.0972692373962
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When a text is translated, does the translation retain the complexity of the original? We introduce ComplexityMT, a new challenge for assessing how text complexity and machine translation interact with and influence each other, using the Common European Framework of Reference for Languages (CEFR) levels as the measure of text complexity. Across six languages, including Arabic, Dutch, English, French, Hindi, and Russian, we evaluate three open-weight models, one closed model, and a commercial machine translation system on two tasks: i) correlation of CEFR with translation difficulty, and ii) shifts in CEFR levels of the source texts. Our experiments show that higher CEFR levels make texts more difficult to translate, and that machine translation shifts the CEFR level of the target text compared to the original source, for most languages. These findings provide new insights for researchers and practitioners working on multilingual pedagogical content generation and machine translation difficulty estimation.
- Abstract(参考訳): テキストが翻訳されると、翻訳は元の複雑さを保っていますか?
テキストの複雑さと機械翻訳が相互にどのように相互作用し、影響を及ぼすかを評価するための新しい課題であるCommon European Framework of Reference for Languages(CEFR)レベルをテキストの複雑さの指標として導入する。
アラビア語、オランダ語、英語、フランス語、ヒンディー語、ロシア語を含む6つの言語で、3つのオープンウェイトモデル、1つのクローズドモデル、および2つのタスクに関する商用機械翻訳システムを評価した。
一 CEFRと翻訳困難との相関、及び
ii)ソーステキストのCEFRレベルのシフト。
実験の結果,CEFRレベルが高いとテキストの翻訳が難しくなり,機械翻訳が元のテキストに比べてCEFRレベルをシフトすることがわかった。
これらの知見は,多言語教育コンテンツ生成と機械翻訳の難易度推定に携わる研究者や実践者に新たな洞察を与えるものである。
関連論文リスト
- Translationese as a Rational Response to Translation Task Difficulty [0.0]
我々は,翻訳課題の難易度を定量的に評価することにより,観測可能な翻訳文を予測できるかどうかを検証した。
我々は、英語とドイツ語の双方向コーパスを用いて、文章と音声のサブコーパスを合成する。
結果から,英語からドイツ語への翻訳は,翻訳作業の難しさによって部分的に説明できることが示唆された。
論文 参考訳(メタデータ) (2026-03-12T15:24:00Z) - Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。
古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。
本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文 参考訳(メタデータ) (2025-09-27T16:27:36Z) - Estimating Machine Translation Difficulty [48.659971048116766]
翻訳難易度推定のタスクを形式化し、その翻訳の期待品質に基づいてテキストの難易度を定義する。
本稿では,機械翻訳のためのより困難なベンチマークを構築するために,難易度推定器の実用性を示す。
難易度推定のための2つの改良されたモデル、Sentinel-src-24とSentinel-src-25をリリースする。
論文 参考訳(メタデータ) (2025-08-13T20:22:58Z) - Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs [18.84670051328337]
XC-Translateは、機械翻訳のための最初の大規模な手作業によるベンチマークである。
KG-MTは、多言語知識グラフからの情報をニューラルネットワーク翻訳モデルに統合する、新しいエンドツーエンド手法である。
論文 参考訳(メタデータ) (2024-10-17T21:56:22Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。