論文の概要: FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes
- arxiv url: http://arxiv.org/abs/2405.11942v1
- Date: Mon, 20 May 2024 10:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:24:44.737681
- Title: FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes
- Title(参考訳): FAME-MTデータセット:機械翻訳目的の形式的認識を容易にする
- Authors: Dawid Wiśniewski, Zofia Rostek, Artur Nowakowski,
- Abstract要約: FAME-MT - 15のヨーロッパソース言語と8のヨーロッパターゲット言語の間の1120万の翻訳からなるデータセット。
このデータセットは、マシン翻訳モデルを微調整して、欧州のターゲット言語毎に所定の形式レベルを確保するために使用することができる。
本稿では、データセットを用いて翻訳の形式レベルを判断する概念実証機械翻訳モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: People use language for various purposes. Apart from sharing information, individuals may use it to express emotions or to show respect for another person. In this paper, we focus on the formality level of machine-generated translations and present FAME-MT -- a dataset consisting of 11.2 million translations between 15 European source languages and 8 European target languages classified to formal and informal classes according to target sentence formality. This dataset can be used to fine-tune machine translation models to ensure a given formality level for each European target language considered. We describe the dataset creation procedure, the analysis of the dataset's quality showing that FAME-MT is a reliable source of language register information, and we present a publicly available proof-of-concept machine translation model that uses the dataset to steer the formality level of the translation. Currently, it is the largest dataset of formality annotations, with examples expressed in 112 European language pairs. The dataset is published online: https://github.com/laniqo-public/fame-mt/ .
- Abstract(参考訳): 人々は様々な目的で言語を使用します。
情報を共有することとは別に、個人は感情を表現したり、他人への敬意を示すためにそれを使うこともある。
本稿では, 機械翻訳の形式レベルとFAME-MT(FAME-MT)に着目し, ターゲット文の形式性に応じて, フォーマルクラス, フォーマルクラスに分類される15のヨーロッパソース言語と8のヨーロッパターゲット言語間の1120万の翻訳からなるデータセットについて述べる。
このデータセットは、考慮された欧州のターゲット言語毎に所定の形式レベルを確保するために、マシン翻訳モデルを微調整するために使用することができる。
本稿では、データセット作成手順、FAME-MTが言語レジスタ情報の信頼性のある情報源であることを示すデータセットの品質分析について述べる。
現在、公式アノテーションの最大のデータセットであり、例はヨーロッパの言語ペア112で表現されている。
データセットはオンラインで公開されている。 https://github.com/laniqo-public/fame-mt/。
関連論文リスト
- Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - MLQE-PE: A Multilingual Quality Estimation and Post-Editing Dataset [49.602565530704005]
データセットには11の言語ペアが含まれており、人間のラベルは1つの言語ペアに1万の翻訳が可能である。
また、後編集された文章や、文章が抽出された記事のタイトルや、テキストの翻訳に使用されるニューラルMTモデルも含んでいる。
論文 参考訳(メタデータ) (2020-10-09T10:12:02Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。