論文の概要: Design of intelligent proofreading system for English translation based on CNN and BERT
- arxiv url: http://arxiv.org/abs/2506.04811v1
- Date: Thu, 05 Jun 2025 09:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.634878
- Title: Design of intelligent proofreading system for English translation based on CNN and BERT
- Title(参考訳): CNNとBERTに基づく英語翻訳のための知的証明読解システムの設計
- Authors: Feijun Liu, Huifeng Wang, Kun Wang, Yizhen Wang,
- Abstract要約: 本稿では,ロバストな証明読解のための新しいハイブリッド手法を提案する。
畳み込みニューラルネットワーク(CNN)と変換器からの双方向表現(BERT)を組み合わせる。
実験は90%の精度、89.37%のF1、および16.24%のMSEを達成し、最近の証明読解技術を10%以上上回った。
- 参考スコア(独自算出の注目度): 5.498056383808144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since automatic translations can contain errors that require substantial human post-editing, machine translation proofreading is essential for improving quality. This paper proposes a novel hybrid approach for robust proofreading that combines convolutional neural networks (CNN) with Bidirectional Encoder Representations from Transformers (BERT). In order to extract semantic information from phrases and expressions, CNN uses a variety of convolution kernel filters to capture local n-gram patterns. In the meanwhile, BERT creates context-rich representations of whole sequences by utilizing stacked bidirectional transformer encoders. Using BERT's attention processes, the integrated error detection component relates tokens to spot translation irregularities including word order problems and omissions. The correction module then uses parallel English-German alignment and GRU decoder models in conjunction with translation memory to propose logical modifications that maintain original meaning. A unified end-to-end training process optimized for post-editing performance is applied to the whole pipeline. The multi-domain collection of WMT and the conversational dialogues of Open-Subtitles are two of the English-German parallel corpora used to train the model. Multiple loss functions supervise detection and correction capabilities. Experiments attain a 90% accuracy, 89.37% F1, and 16.24% MSE, exceeding recent proofreading techniques by over 10% overall. Comparative benchmarking demonstrates state-of-the-art performance in identifying and coherently rectifying mistranslations and omissions.
- Abstract(参考訳): 自動翻訳は人為的な後編集を必要とするエラーを含むことができるため、機械翻訳の校正は品質向上に不可欠である。
本稿では、畳み込みニューラルネットワーク(CNN)と変換器による双方向エンコーダ表現(BERT)を組み合わせた、堅牢な証明読解のための新しいハイブリッド手法を提案する。
フレーズや表現から意味情報を抽出するために、CNNは様々な畳み込みカーネルフィルタを使用して局所的なn-gramパターンをキャプチャする。
一方BERTは、スタック化された双方向トランスフォーマーエンコーダを利用して、シーケンス全体のコンテキストリッチな表現を生成する。
BERTの注意プロセスを用いて、統合エラー検出コンポーネントはトークンを関連付け、単語の順序問題や省略を含む翻訳の不規則を識別する。
修正モジュールは英語とドイツ語の並列アライメントとGRUデコーダモデルと翻訳メモリを併用して、本来の意味を維持する論理的な修正を提案する。
パイプライン全体に対して、後処理のパフォーマンスに最適化された統一されたエンドツーエンドのトレーニングプロセスを適用する。
WMTのマルチドメインコレクションとOpen-Subtitlesの会話対話は、このモデルを訓練するために使用される英語とドイツ語のパラレルコーパスの2つである。
多重損失関数は検出と補正機能を監督する。
実験は90%の精度で89.37%のF1と16.24%のMSEを達成し、最近の証明読解技術を10%以上上回った。
比較ベンチマークは、誤訳と省略の特定とコヒーレントな修正における最先端のパフォーマンスを示す。
関連論文リスト
- Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
本稿では,合成QEデータの分散シフトを緩和する新しいフレームワークであるADSQEを紹介する。
ADSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験によると、ADSQEはCOMETのようなSOTAベースラインを教師なしと教師なしの両方で上回っている。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - Easy Guided Decoding in Providing Suggestions for Interactive Machine
Translation [14.615314828955288]
我々は、新しい制約付きデコーディングアルゴリズム、すなわちPrefix Suffix Guided Decoding (PSGD)を提案する。
PSGDは平均で10.87ドルのBLEUと8.62ドルのBLEUをWeTSとWMT 2022のTranslation Suggestionデータセットで改善している。
論文 参考訳(メタデータ) (2022-11-14T03:40:02Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Non-Autoregressive Neural Machine Translation: A Call for Clarity [3.1447111126465]
我々は、非自己回帰的翻訳モデルを改善するために提案されたいくつかの手法を再検討する。
我々は,長文予測やCTCに基づくアーキテクチャ変種を用いて,強力なベースラインを確立するための新たな洞察を提供する。
4つの翻訳タスクに対してsareBLEUを用いて,標準化されたBLEU,chrF++,TERスコアをコントリビュートする。
論文 参考訳(メタデータ) (2022-05-21T12:15:22Z) - IntelliCAT: Intelligent Machine Translation Post-Editing with Quality
Estimation and Translation Suggestion [13.727763221832532]
我々は、機械翻訳出力における後処理プロセスを合理化するための、ニューラルネットワークを用いた対話型翻訳インタフェースであるIntelliCATを提案する。
文レベルQEと単語レベルQEの2つの品質推定モデルを用いて,機械翻訳文の品質を予測し,修正が必要な機械翻訳文の一部を特定する。
単語アライメントにより、IntelliCATは翻訳された文書に元の文書のスタイルを自動的に保存する。
論文 参考訳(メタデータ) (2021-05-25T19:00:22Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。