論文の概要: Machine Translation to Control Formality Features in the Target Language
- arxiv url: http://arxiv.org/abs/2311.13475v1
- Date: Wed, 22 Nov 2023 15:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 14:41:43.153936
- Title: Machine Translation to Control Formality Features in the Target Language
- Title(参考訳): ターゲット言語の形式的特徴を制御するための機械翻訳
- Authors: Harshita Tyagi, Prashasta Jung, Hyowon Lee
- Abstract要約: 本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
- 参考スコア(独自算出の注目度): 0.9208007322096532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formality plays a significant role in language communication, especially in
low-resource languages such as Hindi, Japanese and Korean. These languages
utilise formal and informal expressions to convey messages based on social
contexts and relationships. When a language translation technique is used to
translate from a source language that does not pertain the formality (e.g.
English) to a target language that does, there is a missing information on
formality that could be a challenge in producing an accurate outcome. This
research explores how this issue should be resolved when machine learning
methods are used to translate from English to languages with formality, using
Hindi as the example data. This was done by training a bilingual model in a
formality-controlled setting and comparing its performance with a pre-trained
multilingual model in a similar setting. Since there are not a lot of training
data with ground truth, automated annotation techniques were employed to
increase the data size. The primary modeling approach involved leveraging
transformer models, which have demonstrated effectiveness in various natural
language processing tasks. We evaluate the official formality accuracy(ACC) by
comparing the predicted masked tokens with the ground truth. This metric
provides a quantitative measure of how well the translations align with the
desired outputs. Our study showcases a versatile translation strategy that
considers the nuances of formality in the target language, catering to diverse
language communication needs and scenarios.
- Abstract(参考訳): 形式性は言語コミュニケーションにおいて特にヒンディー語、日本語、韓国語などの低リソース言語において重要な役割を果たす。
これらの言語は、社会的文脈と関係に基づくメッセージ伝達のために、形式的および非公式な表現を利用する。
形式性(英語など)を含まないソース言語から対象言語に翻訳するために言語翻訳技術を使用する場合、正確な結果を生み出す上での課題となる形式性に関する情報が欠落している。
本研究は、Hindiを例として用いて、英語から形式のある言語への翻訳に機械学習を用いる場合、この問題をどのように解決すべきかを考察する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を同様の設定で事前訓練された多言語モデルと比較することで実現された。
地上の真実に関するトレーニングデータはあまりないため、データサイズを増やすために自動アノテーション技術が採用された。
主要なモデリングアプローチは、様々な自然言語処理タスクで有効性を示すトランスフォーマーモデルを活用することであった。
予測されたマスクトークンと基底真理を比較することにより,公式な形式精度(ACC)を評価する。
この計量は、翻訳が所望の出力とどのように合致するかを定量的に測定する。
本研究は,目的言語における形式性のニュアンスを考慮し,多様な言語コミュニケーションニーズとシナリオに対応する汎用翻訳戦略を示す。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - In What Languages are Generative Language Models the Most Formal?
Analyzing Formality Distribution across Languages [2.457872341625575]
本研究では,文化の影響を強く受けている1つの言語特性,形式性に注目した。
我々はXGLMとBLOOMの予測の形式性分布を5言語で解析する。
我々は,言語毎の1200世代を形式的,非公式,あるいは非接着的に分類し,迅速な形式化が予測に与える影響を計測する。
論文 参考訳(メタデータ) (2023-02-23T19:39:52Z) - Controlling Translation Formality Using Pre-trained Multilingual
Language Models [19.465727478912072]
本稿では,メリーランド大学のiwsltにおける音声言語翻訳における形式性制御特別課題への提出について述べる。
本研究は,テキスト型多言語モデルを用いて,この問題にどの程度対処できるかを検討する。
その結果、この戦略は、専用翻訳モデルによって達成された翻訳品質と形式制御にアプローチできることが示唆された。
論文 参考訳(メタデータ) (2022-05-13T13:47:28Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z) - Data Annealing for Informal Language Understanding Tasks [66.2988222278475]
本稿では,非公式な言語タスクのパフォーマンスギャップを埋めるために,データアニーリング変換学習手法を提案する。
これは、非公式言語でBERTのような事前訓練されたモデルを利用することに成功した。
論文 参考訳(メタデータ) (2020-04-24T09:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。