論文の概要: PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on
User-Generated Contents
- arxiv url: http://arxiv.org/abs/2011.02121v1
- Date: Wed, 4 Nov 2020 04:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:04:55.376102
- Title: PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on
User-Generated Contents
- Title(参考訳): PheMT: ユーザ生成コンテンツに対する機械翻訳ロバストネスのための現象論的データセット
- Authors: Ryo Fujii, Masato Mita, Kaori Abe, Kazuaki Hanawa, Makoto Morishita,
Jun Suzuki and Kentaro Inui
- Abstract要約: 日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。
作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることが明らかになりました。
- 参考スコア(独自算出の注目度): 40.25277134147149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) has shown drastic improvement in its quality
when translating clean input, such as text from the news domain. However,
existing studies suggest that NMT still struggles with certain kinds of input
with considerable noise, such as User-Generated Contents (UGC) on the Internet.
To make better use of NMT for cross-cultural communication, one of the most
promising directions is to develop a model that correctly handles these
expressions. Though its importance has been recognized, it is still not clear
as to what creates the great gap in performance between the translation of
clean input and that of UGC. To answer the question, we present a new dataset,
PheMT, for evaluating the robustness of MT systems against specific linguistic
phenomena in Japanese-English translation. Our experiments with the created
dataset revealed that not only our in-house models but even widely used
off-the-shelf systems are greatly disturbed by the presence of certain
phenomena.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)は、ニュースドメインからのテキストなどのクリーンな入力を翻訳する際に、その品質を大幅に改善した。
しかし、既存の研究では、NMTはインターネット上のユーザ生成コンテンツ(UGC)など、かなりのノイズを伴うある種の入力に苦戦していることが示唆されている。
NMTを異文化間コミュニケーションに活用するために、最も有望な方向性の1つは、これらの表現を正しく扱うモデルを開発することである。
その重要性は認識されているものの、クリーンな入力の翻訳とUGCの翻訳の間にどのような大きなギャップが生じるのかは不明である。
そこで本研究では,日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。
作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることがわかった。
関連論文リスト
- Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Towards Reliable Neural Machine Translation with Consistency-Aware
Meta-Learning [24.64700139151659]
現在のニューラル機械翻訳(NMT)システムは信頼性の欠如に悩まされている。
本稿では,モデルに依存しないメタラーニング(MAML)アルゴリズムをベースとした,一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。
我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-03-20T09:41:28Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Better Neural Machine Translation by Extracting Linguistic Information
from BERT [4.353029347463806]
ニューラルマシン翻訳(NMT)に言語情報を追加することは、主に事前訓練されたモデルからの点推定の使用に焦点を当てている。
我々は点推定の代わりにBERTから細調整ベクターベース言語情報を抽出することによりNMTを増強する。
論文 参考訳(メタデータ) (2021-04-07T00:03:51Z) - Sentence Boundary Augmentation For Neural Machine Translation Robustness [11.290581889247983]
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
論文 参考訳(メタデータ) (2020-10-21T16:44:48Z) - Assessing the Bilingual Knowledge Learned by Neural Machine Translation
Models [72.56058378313963]
NMTモデルで学習したバイリンガル知識をフレーズテーブルで評価することで,このギャップを埋める。
NMTモデルは、単純なものから複雑なものまでパターンを学習し、トレーニング例から本質的なバイリンガル知識を抽出する。
論文 参考訳(メタデータ) (2020-04-28T03:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。