論文の概要: CoCoA-MT: A Dataset and Benchmark for Contrastive Controlled MT with
Application to Formality
- arxiv url: http://arxiv.org/abs/2205.04022v1
- Date: Mon, 9 May 2022 04:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 13:53:08.316917
- Title: CoCoA-MT: A Dataset and Benchmark for Contrastive Controlled MT with
Application to Formality
- Title(参考訳): CoCoA-MT:コントラスト制御MTのデータセットとベンチマークと形式化への応用
- Authors: Maria N\u{a}dejde, Anna Currey, Benjamin Hsu, Xing Niu, Marcello
Federico, Georgiana Dinu
- Abstract要約: 敬語を扱う際には、特定の問題が生じる。
間違った音や不整合音を使用するのは不適切とみなされることがある。
ラベル付きコントラストデータを微調整することで,形式性制御モデルを訓練できることを示す。
- 参考スコア(独自算出の注目度): 22.415580366061867
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The machine translation (MT) task is typically formulated as that of
returning a single translation for an input segment. However, in many cases,
multiple different translations are valid and the appropriate translation may
depend on the intended target audience, characteristics of the speaker, or even
the relationship between speakers. Specific problems arise when dealing with
honorifics, particularly translating from English into languages with formality
markers. For example, the sentence "Are you sure?" can be translated in German
as "Sind Sie sich sicher?" (formal register) or "Bist du dir sicher?"
(informal). Using wrong or inconsistent tone may be perceived as inappropriate
or jarring for users of certain cultures and demographics. This work addresses
the problem of learning to control target language attributes, in this case
formality, from a small amount of labeled contrastive data. We introduce an
annotated dataset (CoCoA-MT) and an associated evaluation metric for training
and evaluating formality-controlled MT models for six diverse target languages.
We show that we can train formality-controlled models by fine-tuning on labeled
contrastive data, achieving high accuracy (82% in-domain and 73% out-of-domain)
while maintaining overall quality.
- Abstract(参考訳): 機械翻訳(MT)タスクは、通常、入力セグメントに対して単一の翻訳を返すものとして定式化される。
しかし、多くの場合、複数の異なる翻訳が有効であり、適切な翻訳は、対象とする話者、話者の特性、さらには話者間の関係に依存する可能性がある。
特定の問題は、特に英語からフォーマルなマーカーを持つ言語に翻訳する際に生じる。
例えば、ドイツ語で「sind sie sich sicher」または「bist du dir sicher」と訳すことができる。
間違ったトーンや一貫性のないトーンを使うことは、特定の文化や人口動態のユーザにとって不適切あるいは厄介であると見なされることがある。
本研究は,少量のラベル付きコントラストデータから対象言語属性,この場合の形式性を制御する学習の問題に対処する。
アノテーション付きデータセット(CoCoA-MT)と関連する評価指標を導入し,6言語を対象とした形式性制御型MTモデルの訓練と評価を行った。
我々は,ラベル付きコントラストデータを微調整し,全体的な品質を維持しつつ高い精度(ドメイン内82%,ドメイン外73%)を達成することで,形式性制御モデルを訓練できることを示す。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - MuLER: Detailed and Scalable Reference-based Evaluation [24.80921931416632]
そこで本研究では,テキスト生成のための基準ベース評価基準を細粒度解析ツールに変換する手法を提案する。
システムとメートル法が与えられたとき、MulERは選択されたメートル法が特定のエラータイプをどれだけ罰するかを定量化する。
我々は,MulERの有効性を実証し,その有用性を示すために,合成的および自然主義的な設定の両方で実験を行う。
論文 参考訳(メタデータ) (2023-05-24T10:26:13Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Controlling Translation Formality Using Pre-trained Multilingual
Language Models [19.465727478912072]
本稿では,メリーランド大学のiwsltにおける音声言語翻訳における形式性制御特別課題への提出について述べる。
本研究は,テキスト型多言語モデルを用いて,この問題にどの程度対処できるかを検討する。
その結果、この戦略は、専用翻訳モデルによって達成された翻訳品質と形式制御にアプローチできることが示唆された。
論文 参考訳(メタデータ) (2022-05-13T13:47:28Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。