論文の概要: How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise in Machine Translation
- arxiv url: http://arxiv.org/abs/2407.02208v2
- Date: Fri, 07 Feb 2025 15:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:36.104143
- Title: How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise in Machine Translation
- Title(参考訳): 騒々しい世界で学習する方法 : 機械翻訳における実世界のデータノイズの自己補正
- Authors: Yan Meng, Di Wu, Christof Monz,
- Abstract要約: 本稿では,意味的類似性によって制御されるミスアライメントをシミュレートする手法を提案する。
本研究では,機械翻訳への影響を定量的に分析し,ノイズ検出に広く用いられているプリフィルタの有効性を限定した。
本稿では,モデルの自己認識に対する信頼を徐々に高め,トレーニングの監督を正す手法である自己補正を提案する。
- 参考スコア(独自算出の注目度): 10.739338438716965
- License:
- Abstract: The massive amounts of web-mined parallel data contain large amounts of noise. Semantic misalignment, as the primary source of the noise, poses a challenge for training machine translation systems. In this paper, we first introduce a process for simulating misalignment controlled by semantic similarity, which closely resembles misaligned sentences in real-world web-crawled corpora. Under our simulated misalignment noise settings, we quantitatively analyze its impact on machine translation and demonstrate the limited effectiveness of widely used pre-filters for noise detection. This underscores the necessity of more fine-grained ways to handle hard-to-detect misalignment noise. With an observation of the increasing reliability of the model's self-knowledge for distinguishing misaligned and clean data at the token level, we propose self-correction, an approach that gradually increases trust in the model's self-knowledge to correct the training supervision. Comprehensive experiments show that our method significantly improves translation performance both in the presence of simulated misalignment noise and when applied to real-world, noisy web-mined datasets, across a range of translation tasks.
- Abstract(参考訳): 大量のウェブマイニングされた並列データには大量のノイズが含まれている。
ノイズの主な原因であるセマンティックなミスアライメントは、機械翻訳システムの訓練に挑戦する。
本稿では,実世界のWebcrawled corporaにおいて,意味的類似性によって制御されるミスアライメントをシミュレートするプロセスについて紹介する。
本研究では, 機械翻訳への影響を定量的に分析し, ノイズ検出に広く用いられているプリフィルタの有効性を検証した。
このことは、ハード・トゥ・ディテクト・アライメント・ノイズを扱うためのよりきめ細かい方法の必要性を浮き彫りにしている。
トークンレベルでの不正なデータとクリーンなデータを区別するための自己知識の信頼性の向上を観察し,モデルの自己知識に対する信頼度を徐々に高め,トレーニングの監督を正す手法である自己補正を提案する。
包括的実験により,本手法は,実世界の雑音の多いWebマイニングデータセットに適用した場合にも,様々な翻訳タスクにおいて,誤アライメントノイズの存在下で翻訳性能を著しく向上することが示された。
関連論文リスト
- Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Unsupervised Noise adaptation using Data Simulation [21.866522173387715]
本稿では,逆クリーン・ノイズ変換を効率よく学習するための生成逆ネットワークに基づく手法を提案する。
実験結果から,本手法はトレーニングセットとテストセット間のドメインミスマッチを効果的に軽減することが示された。
論文 参考訳(メタデータ) (2023-02-23T12:57:20Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Robust Neural Machine Translation: Modeling Orthographic and
Interpunctual Variation [3.3194866396158]
そこで本研究では,10種類の逆例を生成するための簡易な生成ノイズモデルを提案する。
ノイズの多いデータでテストすると、敵の例を使って訓練されたシステムは、クリーンなデータを翻訳するのと同様に、ほぼ同等に機能することを示す。
論文 参考訳(メタデータ) (2020-09-11T14:12:54Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。