論文の概要: HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions
- arxiv url: http://arxiv.org/abs/2211.05201v1
- Date: Wed, 9 Nov 2022 21:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:42:01.875599
- Title: HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions
- Title(参考訳): HilMeMe: マルチワード表現に着目した機械翻訳評価指標
- Authors: Lifeng Han
- Abstract要約: 言語的に動機づけたHuman-in-the-loop評価尺度の設計と実装について,慣用的および用語的マルチワード表現(MWEs)について述べる。
MWEは、MWEを正確で意味のある等価な方法で認識・翻訳する能力を調べることで、異なるMTシステムを区別する主要な要因の1つである。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the fast development of Machine Translation (MT) systems, especially the
new boost from Neural MT (NMT) models, the MT output quality has reached a new
level of accuracy. However, many researchers criticised that the current
popular evaluation metrics such as BLEU can not correctly distinguish the
state-of-the-art NMT systems regarding quality differences. In this short
paper, we describe the design and implementation of a linguistically motivated
human-in-the-loop evaluation metric looking into idiomatic and terminological
Multi-word Expressions (MWEs). MWEs have played a bottleneck in many Natural
Language Processing (NLP) tasks including MT. MWEs can be used as one of the
main factors to distinguish different MT systems by looking into their
capabilities in recognising and translating MWEs in an accurate and meaning
equivalent manner.
- Abstract(参考訳): 機械翻訳(MT)システムの急速な発展、特にニューラルMT(NMT)モデルからの新たな向上により、MTの出力品質は新たなレベルの精度に達した。
しかし、BLEUのような現在の一般的な評価指標は、品質の違いに関して最先端のNTTシステムを正しく区別することはできないと多くの研究者が批判した。
本稿では,慣用的・用語的多語表現(mwes)に着目した,言語的動機づけのある人称評価指標の設計と実装について述べる。
MWEはMTを含む多くの自然言語処理(NLP)タスクにおいてボトルネックとなっている。MWEは、MWEを正確かつ等価な方法で認識・翻訳する能力を検討することで、異なるMTシステムを区別する主要な要因の1つである。
関連論文リスト
- Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
論文 参考訳(メタデータ) (2024-03-19T12:02:38Z) - Automating Behavioral Testing in Machine Translation [9.151054827967933]
本稿では,機械翻訳モデルの振る舞いをテストするために,大規模言語モデルを用いてソース文を生成することを提案する。
MTモデルが一致した候補集合を通して期待される振る舞いを示すかどうかを検証することができる。
本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
論文 参考訳(メタデータ) (2023-09-05T19:40:45Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文 参考訳(メタデータ) (2023-05-12T13:10:57Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Towards Reliable Neural Machine Translation with Consistency-Aware
Meta-Learning [24.64700139151659]
現在のニューラル機械翻訳(NMT)システムは信頼性の欠如に悩まされている。
本稿では,モデルに依存しないメタラーニング(MAML)アルゴリズムをベースとした,一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。
我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-03-20T09:41:28Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。