論文の概要: Chinese Character Decomposition for Neural MT with Multi-Word
Expressions
- arxiv url: http://arxiv.org/abs/2104.04497v1
- Date: Fri, 9 Apr 2021 17:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:58:15.453860
- Title: Chinese Character Decomposition for Neural MT with Multi-Word
Expressions
- Title(参考訳): マルチワード表現を用いたニューラルMTの漢字分解
- Authors: Lifeng Han, Gareth J. F. Jones, Alan F. Smeaton and Paolo Bolzoni
- Abstract要約: 本研究は,中国の分解組込みの影響,すなわちラジカル,脳卒中,中間レベルについて詳細に検討する。
また,分解型マルチワード表現(MWE)の組み合わせがモデル学習を促進できるかどうかについても検討する。
- 参考スコア(独自算出の注目度): 8.19513395915561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese character decomposition has been used as a feature to enhance Machine
Translation (MT) models, combining radicals into character and word level
models. Recent work has investigated ideograph or stroke level embedding.
However, questions remain about different decomposition levels of Chinese
character representations, radical and strokes, best suited for MT. To
investigate the impact of Chinese decomposition embedding in detail, i.e.,
radical, stroke, and intermediate levels, and how well these decompositions
represent the meaning of the original character sequences, we carry out
analysis with both automated and human evaluation of MT. Furthermore, we
investigate if the combination of decomposed Multiword Expressions (MWEs) can
enhance the model learning. MWE integration into MT has seen more than a decade
of exploration. However, decomposed MWEs has not previously been explored.
- Abstract(参考訳): 漢字分解は機械翻訳(mt)モデルを強化する機能として用いられており、文字レベルと単語レベルのモデルにラジカルを組み合わせる。
近年の研究ではイデオグラフや脳卒中レベルの埋め込みが研究されている。
しかし、MTに最も適した漢字表現の分解レベル、急進的、ストロークに関する疑問が残る。
本研究は,中国の分解埋め込みの影響,すなわちラジカル,脳卒中,中間レベル,およびこれらの分解がいかに元の文字配列の意味を表わすかを明らかにするために,mtの自動評価と人的評価の両方を用いて分析を行う。
さらに,分解型マルチワード表現(MWE)の組み合わせがモデル学習を促進できるかどうかを検討した。
MTへのMWE統合は10年以上にわたって調査されてきた。
しかし、mwesの分解は未だ検討されていない。
関連論文リスト
- MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Prompting PaLM for Translation: Assessing Strategies and Performance [16.73524055296411]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。
我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (2022-11-16T18:42:37Z) - HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions [6.85316573653194]
言語的に動機づけたHuman-in-the-loop評価尺度の設計と実装について,慣用的および用語的マルチワード表現(MWEs)について述べる。
MWEは、MWEを正確で意味のある等価な方法で認識・翻訳する能力を調べることで、異なるMTシステムを区別する主要な要因の1つである。
論文 参考訳(メタデータ) (2022-11-09T21:15:40Z) - Why don't people use character-level machine translation? [69.53730499849023]
文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。
文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。
論文 参考訳(メタデータ) (2021-10-15T16:43:31Z) - Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in
Low-Resource, Morphologically-Unmarked Settings [8.006185289499049]
特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。
本研究では,Yorub'a の素名詞を英語に翻訳する際に,SMTシステムと2つの NMT システムとの比較を行う。
論文 参考訳(メタデータ) (2021-03-07T01:24:09Z) - Machine Translationese: Effects of Algorithmic Bias on Linguistic
Complexity in Machine Translation [2.0625936401496237]
我々は、機械翻訳におけるジェンダーの研究を超えて、偏見の増幅がより広い意味で言語に与える影響を調査する。
我々は、異なるデータ駆動MTパラダイムによって生成された翻訳の言語的豊かさ(語彙的および形態学的レベルで)を評価する。
論文 参考訳(メタデータ) (2021-01-30T18:49:11Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - On the Integration of LinguisticFeatures into Statistical and Neural
Machine Translation [2.132096006921048]
機械翻訳に対する統計的アプローチの強みと人間の翻訳方法の相違について検討する。
自動翻訳システムがより正確な翻訳を行うために欠落している言語情報を同定する。
我々は、過一般化または「アルゴミックバイアス」をニューラルMTの潜在的な欠点として認識し、残りの言語問題の多くにリンクする。
論文 参考訳(メタデータ) (2020-03-31T16:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。