論文の概要: Benchmarking Machine Translation on Chinese Social Media Texts
- arxiv url: http://arxiv.org/abs/2601.22931v1
- Date: Fri, 30 Jan 2026 12:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.447058
- Title: Benchmarking Machine Translation on Chinese Social Media Texts
- Title(参考訳): 中国のソーシャルメディアテキストにおけるベンチマーク機械翻訳
- Authors: Kaiyan Zhao, Zheyong Xie, Zhongtao Miao, Xinze Lyu, Yao Hu, Shaosheng Cao,
- Abstract要約: 急速に進化するスラング、ネオロジズム、およびユーザ生成テキストにおける高度にスタイル化された表現の出現は、機械学習ベンチマークにおいて大きな課題となっている。
CSM-MTBenchは、中国語以外の5つの方向をカバーするベンチマークである。
本稿では,各サブセットについて,スラングとネオロジズムの翻訳成功率を測定し,ソーシャル・スニペットのトーンとスタイルを評価する。
- 参考スコア(独自算出の注目度): 14.617307008869767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of rapidly evolving slang, neologisms, and highly stylized expressions in informal user-generated text, particularly on Chinese social media, poses significant challenges for Machine Translation (MT) benchmarking. Specifically, we identify two primary obstacles: (1) data scarcity, as high-quality parallel data requires bilingual annotators familiar with platform-specific slang, and stylistic cues in both languages; and (2) metric limitations, where traditional evaluators like COMET often fail to capture stylistic fidelity and nonstandard expressions. To bridge these gaps, we introduce CSM-MTBench, a benchmark covering five Chinese-foreign language directions and consisting of two expert-curated subsets: Fun Posts, featuring context-rich, slang- and neologism-heavy content, and Social Snippets, emphasizing concise, emotion- and style- driven expressions. Furthermore, we propose tailored evaluation approaches for each subset: measuring the translation success rate of slang and neologisms in Fun Posts, while assessing tone and style preservation in Social Snippets via a hybrid of embedding-based metrics and LLM-as-a-judge. Experiments on over 20 models reveal substantial variation in how current MT systems handle semantic fidelity and informal, social-media-specific stylistic cues. CSM-MTBench thus serves as a rigorous testbed for advancing MT systems capable of mastering real-world Chinese social media texts.
- Abstract(参考訳): 急速に進化するスラング、ネオロジズム、特に中国のソーシャルメディアにおける非公式なユーザ生成テキストにおける高度にスタイル化された表現の流行は、機械翻訳(MT)ベンチマークに重大な課題を提起している。
具体的には,(1)プラットフォーム固有のスラングに慣れ親しんだバイリンガル・アノテータと,(2)COMETのような従来の評価指標がスタイリスティックな忠実さや非標準表現を捉えるのに失敗する,という2つの主要な障害を特定する。
これらのギャップを埋めるために、中国以外の5つの言語方向をカバーするベンチマークであるCSM-MTBenchを紹介します。
さらに,各サブセットについて,スラングとネオロジズムの翻訳成功率の測定と,埋め込み型メトリクスとLDM-as-a-judgeのハイブリッドによるソーシャルスニペットのトーンとスタイル保存の評価を行う。
20モデル以上の実験では、現在のMTシステムが意味的忠実さと非公式なソーシャルメディア固有のスタイル的手がかりをどのように扱うかがかなり異なることが示されている。
したがって、CSM-MTBenchは、実際の中国のソーシャルメディアテキストをマスターできるMTシステムを前進させるための厳格なテストベッドとして機能する。
関連論文リスト
- Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - Team ACK at SemEval-2025 Task 2: Beyond Word-for-Word Machine Translation for English-Korean Pairs [23.19401079530962]
英語と韓国語の間で知識に富んだ、エンティティに富んだテキストを翻訳するには、言語固有の、文化的なニュアンスを保存するためのトランスクリエーションが必要である。
自動計測とバイリンガルアノテータによる人的評価を用いて13のモデル(LLMとMTモデル)を評価する。
論文 参考訳(メタデータ) (2025-04-29T05:58:19Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Modeling Bilingual Conversational Characteristics for Neural Chat
Translation [24.94474722693084]
上記の特性をモデル化して会話テキストの翻訳品質を高めることを目的としている。
我々は、ベンチマークデータセットBConTrasT(英語-ドイツ語)と、BMELD(英語-中国語)という自己コンパイルバイリンガル対話コーパスに対するアプローチを評価した。
我々のアプローチは,強いベースラインよりも高いマージンで性能を向上し,BLEUとTERの観点から,最先端のコンテキスト対応NMTモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2021-07-23T12:23:34Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。