論文の概要: Rethinking the Reasonability of the Test Set for Simultaneous Machine
Translation
- arxiv url: http://arxiv.org/abs/2303.00969v1
- Date: Thu, 2 Mar 2023 05:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:00:32.576826
- Title: Rethinking the Reasonability of the Test Set for Simultaneous Machine
Translation
- Title(参考訳): 同時機械翻訳のためのテストセットの推論可能性の再検討
- Authors: Mengge Liu, Wen Zhang, Xiang Li, Jian Luan, Bin Wang, Yuhang Guo,
Shuoying Chen
- Abstract要約: 同時機械翻訳(SimulMT)モデルは、原文の終了前に翻訳を開始する。
一般的な全文翻訳テストセットは、ソース文全体のオフライン翻訳によって取得される。
我々は,SiMuST-Cと表記されるMuST-C英語-中国語テストセットに基づいて,モノトニックテストセットを手動で注釈付けする。
- 参考スコア(独自算出の注目度): 14.758033756564858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous machine translation (SimulMT) models start translation before
the end of the source sentence, making the translation monotonically aligned
with the source sentence. However, the general full-sentence translation test
set is acquired by offline translation of the entire source sentence, which is
not designed for SimulMT evaluation, making us rethink whether this will
underestimate the performance of SimulMT models. In this paper, we manually
annotate a monotonic test set based on the MuST-C English-Chinese test set,
denoted as SiMuST-C. Our human evaluation confirms the acceptability of our
annotated test set. Evaluations on three different SimulMT models verify that
the underestimation problem can be alleviated on our test set. Further
experiments show that finetuning on an automatically extracted monotonic
training set improves SimulMT models by up to 3 BLEU points.
- Abstract(参考訳): 同時機械翻訳(SimulMT)モデルは、原文の終了前に翻訳を開始し、翻訳を原文と単調に一致させる。
しかし,SimulMT モデルの性能を過小評価するかどうかを再考するために,SimulMT 評価のために設計されていない全文のオフライン翻訳により,一般的な全文翻訳テストセットが取得される。
本稿では,SiMuST-C と表記される MuST-C 英語-中国語テストセットに基づく単調テストセットを手動でアノテートする。
我々の人的評価は、注釈付きテストセットの受容性を確認する。
3種類のSimulMTモデルに対する評価により,テストセット上での過小評価問題を緩和できることを確認した。
さらなる実験により、自動抽出された単調トレーニングセットの微調整により、SimulMTモデルが最大3 BLEU点まで改善されることが示されている。
関連論文リスト
- Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation [13.713981533436135]
本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。
NAIST英語と日本語の単調翻訳評価データセットを用いて,チャンクワイド単調翻訳(CMT)文の特徴を解析した。
さらに,既存の音声翻訳(ST)と同時音声翻訳(simulST)モデルからの出力を評価し,CMT文の特徴について検討した。
論文 参考訳(メタデータ) (2024-06-13T09:10:16Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Variance-Aware Machine Translation Test Sets [19.973201669851626]
分散対応テストセット(VAT)と呼ばれる機械翻訳(MT)評価のための70個の小型判別テストセットをリリースする。
VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。
論文 参考訳(メタデータ) (2021-11-07T13:18:59Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in
Low-Resource, Morphologically-Unmarked Settings [8.006185289499049]
特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。
本研究では,Yorub'a の素名詞を英語に翻訳する際に,SMTシステムと2つの NMT システムとの比較を行う。
論文 参考訳(メタデータ) (2021-03-07T01:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。