論文の概要: Automatic Machine Translation Detection Using a Surrogate Multilingual Translation Model
- arxiv url: http://arxiv.org/abs/2511.02958v1
- Date: Tue, 04 Nov 2025 19:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.232207
- Title: Automatic Machine Translation Detection Using a Surrogate Multilingual Translation Model
- Title(参考訳): 代理多言語翻訳モデルを用いた自動機械翻訳検出
- Authors: Cristian García-Romero, Miquel Esplà-Gomis, Felipe Sánchez-Martínez,
- Abstract要約: 本稿では,人文と機械翻訳文を区別する新しい手法を提案する。
実験結果から,本手法は最先端技術よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.750257527930005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern machine translation (MT) systems depend on large parallel corpora, often collected from the Internet. However, recent evidence indicates that (i) a substantial portion of these texts are machine-generated translations, and (ii) an overreliance on such synthetic content in training data can significantly degrade translation quality. As a result, filtering out non-human translations is becoming an essential pre-processing step in building high-quality MT systems. In this work, we propose a novel approach that directly exploits the internal representations of a surrogate multilingual MT model to distinguish between human and machine-translated sentences. Experimental results show that our method outperforms current state-of-the-art techniques, particularly for non-English language pairs, achieving gains of at least 5 percentage points of accuracy.
- Abstract(参考訳): 現代の機械翻訳(MT)システムは、インターネットからしばしば収集される大きな並列コーパスに依存している。
しかし、近年の証拠からは、
(i)これらのテキストの大部分は機械翻訳であり、
(II)訓練データにおけるこのような合成内容への過度依存は翻訳品質を著しく低下させる可能性がある。
その結果、高品質なMTシステムを構築する上で、非人間翻訳をフィルタリングすることが重要な前処理ステップとなっている。
本研究では,代用多言語MTモデルの内部表現を直接活用して,人文と機械翻訳文を区別する手法を提案する。
実験結果から,本手法は現状技術,特に非英語の対において,少なくとも5ポイントの精度向上を実現していることがわかった。
関連論文リスト
- Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Quality Estimation of Machine Translated Texts based on Direct Evidence
from Training Data [0.0]
MTシステムのトレーニングデータとして使用される並列コーパスは,MTシステムによって生成された翻訳の質を推定するための直接的な手がかりを有することを示す。
実験の結果,本手法は純粋にデータ駆動型機械翻訳システムによって生成された翻訳の品質評価に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T11:52:28Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Supervised Visual Attention for Simultaneous Multimodal Machine
Translation [47.18251159303909]
本稿では,トランスフォーマーを用いた最初の同時機械翻訳(MMT)アーキテクチャを提案する。
我々は、ラベル付きフレーズ領域アライメントを用いて視覚的注意機構を誘導する補助的な監視信号を用いて、このモデルを拡張する。
その結果,教師付き視覚的注意はMTモデルの翻訳品質を常に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-23T17:25:57Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。