論文の概要: Sentiment-based Candidate Selection for NMT
- arxiv url: http://arxiv.org/abs/2104.04840v1
- Date: Sat, 10 Apr 2021 19:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:42:44.737502
- Title: Sentiment-based Candidate Selection for NMT
- Title(参考訳): 感性に基づくNMT候補選択
- Authors: Alex Jones, Derry Tanti Wijaya
- Abstract要約: 本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。
我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。
人間の評価結果から,パイプライン上に構築されたオープンソースのMTモデルと比較して,ベースライン翻訳は口語的,感情重大なソーステキストよりも正確であることが示唆された。
- 参考スコア(独自算出の注目度): 2.580271290008534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The explosion of user-generated content (UGC)--e.g. social media posts,
comments, and reviews--has motivated the development of NLP applications
tailored to these types of informal texts. Prevalent among these applications
have been sentiment analysis and machine translation (MT). Grounded in the
observation that UGC features highly idiomatic, sentiment-charged language, we
propose a decoder-side approach that incorporates automatic sentiment scoring
into the MT candidate selection process. We train separate English and Spanish
sentiment classifiers, then, using n-best candidates generated by a baseline MT
model with beam search, select the candidate that minimizes the absolute
difference between the sentiment score of the source sentence and that of the
translation, and perform a human evaluation to assess the produced
translations. Unlike previous work, we select this minimally divergent
translation by considering the sentiment scores of the source sentence and
translation on a continuous interval, rather than using e.g. binary
classification, allowing for more fine-grained selection of translation
candidates. The results of human evaluations show that, in comparison to the
open-source MT baseline model on top of which our sentiment-based pipeline is
built, our pipeline produces more accurate translations of colloquial,
sentiment-heavy source texts.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)の爆発など。
ソーシャルメディアの投稿、コメント、レビューは、このような非公式テキストに合わせたNLPアプリケーションの開発を動機付けている。
これらの応用には感情分析と機械翻訳(MT)がある。
UGCが高度に慣用的で感傷的な言語を特徴とする観察に基づいて,自動感情スコアをMT候補選択プロセスに組み込むデコーダ側アプローチを提案する。
英語とスペイン語の感情分類器を分離し,ベースラインmtモデルで生成されたn-best候補をビーム探索で学習し,ソース文の感情スコアと翻訳文の感情スコアとの絶対差を最小化する候補を選択し,人間による評価を行い,生成した翻訳を評価する。
従来の作業と異なり、例えば、ソース文の感情スコアや翻訳を連続的な間隔で考慮することで、この極端に異なる翻訳を選択する。
よりきめ細かい翻訳候補の選択を可能にするバイナリ分類。
人的評価の結果,感情に基づくパイプラインを構築したオープンソースのMTベースラインモデルと比較して,我々のパイプラインは口語,感情重大なソーステキストのより正確な翻訳を生成することがわかった。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Identifying Context-Dependent Translations for Evaluation Set Production [11.543673351369183]
文脈対応機械翻訳への移行に対する大きな障害は、優れた評価指標とテストセットがないことである。
我々は,5つの現象を翻訳するために文脈を必要とする文を含む並列文書のサブセットを識別するツールであるCTXPROを開発した。
パイプラインへの入力は、文脈的な文ペアを選択する手作り、言語ごと、言語的にインフォームドされたルールのセットである。
論文 参考訳(メタデータ) (2023-11-04T04:29:08Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - A Semi-supervised Approach for a Better Translation of Sentiment in
Dialectical Arabic UGT [2.6763498831034034]
NMTシステムのトレーニングにモノリンガルデータと並列データの両方を利用する半教師付きアプローチを導入する。
提案システムは,アラビア語の方言UGTのオンライン翻訳で検出された感情誤りの訂正に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-21T11:55:55Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。