論文の概要: MultiMWE: Building a Multi-lingual Multi-Word Expression (MWE) Parallel
Corpora
- arxiv url: http://arxiv.org/abs/2005.10583v1
- Date: Thu, 21 May 2020 11:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:29:37.046587
- Title: MultiMWE: Building a Multi-lingual Multi-Word Expression (MWE) Parallel
Corpora
- Title(参考訳): MultiMWE: Multi-lingual Multi-Word Expression (MWE) Parallel Corpora の構築
- Authors: Lifeng Han, Gareth J.F. Jones and Alan F. Smeaton
- Abstract要約: マルチワード表現(MWEs)は自然言語処理(NLP)の研究においてホットな話題である
バイリンガルまたはマルチリンガルMWEコーパスの可用性は非常に限られている。
フィルタリング後,ドイツ語と中国語にそれぞれ3,159,226対と143,042対のバイリンガルMWEペアを提示した。
- 参考スコア(独自算出の注目度): 14.105783620789667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-word expressions (MWEs) are a hot topic in research in natural language
processing (NLP), including topics such as MWE detection, MWE decomposition,
and research investigating the exploitation of MWEs in other NLP fields such as
Machine Translation. However, the availability of bilingual or multi-lingual
MWE corpora is very limited. The only bilingual MWE corpora that we are aware
of is from the PARSEME (PARSing and Multi-word Expressions) EU Project. This is
a small collection of only 871 pairs of English-German MWEs. In this paper, we
present multi-lingual and bilingual MWE corpora that we have extracted from
root parallel corpora. Our collections are 3,159,226 and 143,042 bilingual MWE
pairs for German-English and Chinese-English respectively after filtering. We
examine the quality of these extracted bilingual MWEs in MT experiments. Our
initial experiments applying MWEs in MT show improved translation performances
on MWE terms in qualitative analysis and better general evaluation scores in
quantitative analysis, on both German-English and Chinese-English language
pairs. We follow a standard experimental pipeline to create our MultiMWE
corpora which are available online. Researchers can use this free corpus for
their own models or use them in a knowledge base as model features.
- Abstract(参考訳): マルチワード式(MWEs)は、MWE検出、MWE分解、機械翻訳などの他のNLP分野におけるMWEの活用に関する研究など、自然言語処理(NLP)の研究においてホットなトピックである。
しかし、多言語または多言語mweコーポラの利用は限られている。
私たちが知っている唯一のバイリンガルMWEコーパスは、PARSEME (PARSing and Multi-word Expressions) EU Projectである。
これは、イギリスとドイツのMWEのわずか871組の小さなコレクションである。
本稿では,ルートパラレルコーパスから抽出した多言語MWEコーパスとバイリンガルMWEコーパスについて述べる。
我々のコレクションはドイツ語と中国語でそれぞれ3,159,226対と143,042対である。
MT実験において抽出したバイリンガルMWEの品質について検討した。
MTでMWEを適用した最初の実験では, 定性解析におけるMWEの翻訳性能が向上し, 定量的解析における総合評価スコアが向上した。
オンラインで利用可能なMultiMWEコーパスを作成するための、標準的な実験パイプラインに従います。
研究者はこの無料コーパスを自身のモデルに使用したり、ナレッジベースでモデル機能として使用することができる。
関連論文リスト
- On the Evaluation Practices in Multilingual NLP: Can Machine Translation Offer an Alternative to Human Translations? [19.346078451375693]
NLPにおける既存の評価フレームワークについて分析する。
より堅牢で信頼性の高い評価手法を提案する。
より単純なベースラインは,大規模多言語事前学習の恩恵を受けずに比較的高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-20T12:46:12Z) - Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language [1.1702440973773898]
本研究では,Timor-Lesteで話される低音源のオーストロネシア語であるMambaiへの英語翻訳における大規模言語モデルの利用について検討した。
提案手法は, 並列文と辞書エントリの戦略的な選択と, プロンプトのための手法である。
辞書をインプロンプトに含め,-IDFで検索した文とセマンティック埋め込みを混合することにより,翻訳品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-07T05:04:38Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z) - AlphaMWE: Construction of Multilingual Parallel Corpora with MWE
Annotations [5.8010446129208155]
マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。
対象言語は英語、中国語、ポーランド語、ドイツ語である。
MWE関連翻訳において,MTシステムで発生する誤りの種類を分類する。
論文 参考訳(メタデータ) (2020-11-07T14:28:54Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。