論文の概要: Ask Language Model to Clean Your Noisy Translation Data
- arxiv url: http://arxiv.org/abs/2310.13469v2
- Date: Mon, 23 Oct 2023 08:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:10:58.046495
- Title: Ask Language Model to Clean Your Noisy Translation Data
- Title(参考訳): 騒々しい翻訳データをきれいにする言語モデル
- Authors: Quinten Bolding, Baohao Liao, Brandon James Denis, Jun Luo, Christof
Monz
- Abstract要約: MTNTのターゲット文からノイズを除去することに集中し、ノイズ評価のベンチマークとしてより適している。
大規模言語モデル (LLM) はスラング, ジャーゴン, 代名詞を効果的に言い換えることができることを示す。
C-MTNT実験はNMTモデルのロバスト性を評価する上での有効性を示した。
- 参考スコア(独自算出の注目度): 7.246698449812031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have demonstrated remarkable performance in neural machine
translation (NMT). However, their vulnerability to noisy input poses a
significant challenge in practical implementation, where generating clean
output from noisy input is crucial. The MTNT dataset is widely used as a
benchmark for evaluating the robustness of NMT models against noisy input.
Nevertheless, its utility is limited due to the presence of noise in both the
source and target sentences. To address this limitation, we focus on cleaning
the noise from the target sentences in MTNT, making it more suitable as a
benchmark for noise evaluation. Leveraging the capabilities of large language
models (LLMs), we observe their impressive abilities in noise removal. For
example, they can remove emojis while considering their semantic meaning.
Additionally, we show that LLM can effectively rephrase slang, jargon, and
profanities. The resulting datasets, called C-MTNT, exhibit significantly less
noise in the target sentences while preserving the semantic integrity of the
original sentences. Our human and GPT-4 evaluations also lead to a consistent
conclusion that LLM performs well on this task. Lastly, experiments on C-MTNT
showcased its effectiveness in evaluating the robustness of NMT models,
highlighting the potential of advanced language models for data cleaning and
emphasizing C-MTNT as a valuable resource.
- Abstract(参考訳): トランスフォーマーモデルはニューラルマシン翻訳(NMT)において顕著な性能を示した。
しかし、ノイズ入力に対するその脆弱性は、ノイズ入力からクリーンな出力を生成するという実践的な実装において重大な課題を生んでいる。
MTNTデータセットは、ノイズ入力に対するNMTモデルの堅牢性を評価するベンチマークとして広く利用されている。
それでも、その実用性は、ソース文とターゲット文の両方にノイズがあるため制限されている。
この制限に対処するため、MTNTのターゲット文からノイズを除去することに集中し、ノイズ評価のベンチマークとしてより適している。
大規模言語モデル(llm)の機能を活用して,ノイズ除去におけるその印象的な能力を観察した。
例えば、意味的な意味を考慮しながら絵文字を削除できる。
さらに, LLM はスラング, ジャーゴン, 預言を効果的に表現できることが示唆された。
C-MTNTと呼ばれる結果のデータセットは、元の文のセマンティックな整合性を保ちながら、ターゲット文のノイズを著しく少なくする。
我々の人間とgpt-4の評価は、llmがこのタスクでうまく働くという一貫した結論をもたらす。
最後に、C-MTNT実験はNMTモデルの堅牢性を評価する上での有効性を示し、C-MTNTを貴重な資源として強調した。
関連論文リスト
- Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Can NMT Understand Me? Towards Perturbation-based Evaluation of NMT
Models for Code Generation [1.7616042687330642]
NMTモデルの堅牢性を検証するための重要なステップは、その性能を逆入力で評価することである。
本研究では,そのようなモデルのロバスト性評価に適した摂動と測定値のセットを同定する。
モデルにどのような摂動が最も影響を与えるかを示す予備実験を行った。
論文 参考訳(メタデータ) (2022-03-29T08:01:39Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on
User-Generated Contents [40.25277134147149]
日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。
作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることが明らかになりました。
論文 参考訳(メタデータ) (2020-11-04T04:44:47Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。