論文の概要: TransBench: Benchmarking Machine Translation for Industrial-Scale Applications
- arxiv url: http://arxiv.org/abs/2505.14244v1
- Date: Tue, 20 May 2025 11:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.151747
- Title: TransBench: Benchmarking Machine Translation for Industrial-Scale Applications
- Title(参考訳): TransBench: 産業用アプリケーションのためのベンチマークマシン翻訳
- Authors: Haijun Li, Tianqi Shi, Zifu Shang, Yuxuan Han, Xueyu Zhao, Hao Wang, Yu Qian, Zhiqiang Qian, Linlong Xu, Minghao Wu, Chenyang Lyu, Longyue Wang, Gongbo Tang, Weihua Luo, Zhao Xu, Kaifu Zhang,
- Abstract要約: 機械翻訳(MT)は、電子商取引、金融、法務サービスといったグローバル産業における国境を越えたコミュニケーションにとって欠かせないものとなっている。
汎用MTモデルを産業シナリオに適用すると、ドメイン固有の用語、文化的ニュアンス、および一般的なベンチマークに欠落したスタイル上の規則による限界が明らかになる。
既存の評価フレームワークは、専門的な文脈での翻訳を不十分に評価し、学術ベンチマークと実世界の有効性の間にギャップを生じさせる。
産業用MTのベンチマークであるTransBenchを導入し、最初は4つの主要なシナリオと33の言語ペアにまたがる17,000の文で国際eコマースをターゲットにした。
- 参考スコア(独自算出の注目度): 39.03233118476432
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine translation (MT) has become indispensable for cross-border communication in globalized industries like e-commerce, finance, and legal services, with recent advancements in large language models (LLMs) significantly enhancing translation quality. However, applying general-purpose MT models to industrial scenarios reveals critical limitations due to domain-specific terminology, cultural nuances, and stylistic conventions absent in generic benchmarks. Existing evaluation frameworks inadequately assess performance in specialized contexts, creating a gap between academic benchmarks and real-world efficacy. To address this, we propose a three-level translation capability framework: (1) Basic Linguistic Competence, (2) Domain-Specific Proficiency, and (3) Cultural Adaptation, emphasizing the need for holistic evaluation across these dimensions. We introduce TransBench, a benchmark tailored for industrial MT, initially targeting international e-commerce with 17,000 professionally translated sentences spanning 4 main scenarios and 33 language pairs. TransBench integrates traditional metrics (BLEU, TER) with Marco-MOS, a domain-specific evaluation model, and provides guidelines for reproducible benchmark construction. Our contributions include: (1) a structured framework for industrial MT evaluation, (2) the first publicly available benchmark for e-commerce translation, (3) novel metrics probing multi-level translation quality, and (4) open-sourced evaluation tools. This work bridges the evaluation gap, enabling researchers and practitioners to systematically assess and enhance MT systems for industry-specific needs.
- Abstract(参考訳): 機械翻訳(MT)は、電子商取引、金融、法務サービスといったグローバル産業におけるクロスボーダー通信において欠かせないものとなり、近年の大規模言語モデル(LLM)の進歩により翻訳品質が著しく向上している。
しかし、産業シナリオに汎用MTモデルを適用すると、ドメイン固有の用語、文化的ニュアンス、および一般的なベンチマークに欠落するスタイル上の規則による限界が明らかになる。
既存の評価フレームワークは、特定のコンテキストにおけるパフォーマンスを不十分に評価し、学術ベンチマークと実世界の有効性の間にギャップを生じさせる。
そこで我々は,(1)基本言語能力,(2)ドメイン特化能力,(3)文化的適応という3段階の翻訳能力の枠組みを提案する。
産業用MT用に調整されたベンチマークであるTransBenchを導入し、最初は4つの主要なシナリオと33の言語ペアにまたがる17,000の専門翻訳文で国際eコマースをターゲットにした。
TransBenchは従来のメトリクス(BLEU, TER)をドメイン固有の評価モデルであるMarco-MOSと統合し、再現可能なベンチマーク構築のためのガイドラインを提供する。
コントリビューションには,(1)産業MT評価のための構造化フレームワーク,(2)eコマース翻訳のための最初の公開ベンチマーク,(3)多水準翻訳品質を示す新しい指標,(4)オープンソース評価ツールなどが含まれている。
この研究は評価ギャップを埋め、研究者や実践者が業界特有のニーズに対してMTシステムを体系的に評価し、拡張することを可能にする。
関連論文リスト
- Team ACK at SemEval-2025 Task 2: Beyond Word-for-Word Machine Translation for English-Korean Pairs [23.19401079530962]
英語と韓国語の間で知識に富んだ、エンティティに富んだテキストを翻訳するには、言語固有の、文化的なニュアンスを保存するためのトランスクリエーションが必要である。
自動計測とバイリンガルアノテータによる人的評価を用いて13のモデル(LLMとMTモデル)を評価する。
論文 参考訳(メタデータ) (2025-04-29T05:58:19Z) - Translation Analytics for Freelancers: I. Introduction, Data Preparation, Baseline Evaluations [0.0]
これは、最近の言語技術の進歩に起因する、急速に拡大する新しい機会を探求する一連の論文の最初のものである。
我々は、これらの進歩を活用するための実用的な手法で翻訳者を強化することを目指している。
論文 参考訳(メタデータ) (2025-04-20T13:54:28Z) - Redefining Machine Translation on Social Network Services with Large Language Models [35.519703688810786]
本稿では,SNS翻訳に適した72B LLMであるRedTransを紹介する。
RedTransは、3つのイノベーションを通じて開発された新しいデータセットでトレーニングされている。
実験では、RedTransは最先端のLLMよりも優れています。
論文 参考訳(メタデータ) (2025-04-10T16:24:28Z) - Translating Multimodal AI into Real-World Inspection: TEMAI Evaluation Framework and Pathways for Implementation [3.848879161330863]
本稿では,インスペクションフレームワークにおけるマルチモーダルAIの翻訳評価について紹介する。
インダストリアルインスペクション実装でマルチモーダルAI機能をブリッジする。
このフレームワークは、技術的能力だけで、対応する採用メカニズムなしで限られた価値が得られることを実証している。
論文 参考訳(メタデータ) (2025-03-31T11:30:56Z) - MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark [20.642661835794975]
産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
論文 参考訳(メタデータ) (2025-01-28T03:56:17Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。