論文の概要: Multiple References with Meaningful Variations Improve Literary Machine Translation
- arxiv url: http://arxiv.org/abs/2412.18707v1
- Date: Tue, 24 Dec 2024 23:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:13.641160
- Title: Multiple References with Meaningful Variations Improve Literary Machine Translation
- Title(参考訳): 意味のある変化を伴う複数参照は、文学機械翻訳を改善する
- Authors: Si Wu, John Wieting, David A. Smith,
- Abstract要約: これまでの研究により、合成パラフレーズを用いることで機械翻訳が向上することが示されている。
我々は,パラフレーズ間の意味的類似性を,低,中,高の3つのグループに分類する。
中・高意味の類似性のパラフレーズを使用することで、フィルタされていないデータセットよりも優れる。
- 参考スコア(独自算出の注目度): 15.399876365676116
- License:
- Abstract: While a source sentence can be translated in many ways, most machine translation (MT) models are trained with only a single reference. Previous work has shown that using synthetic paraphrases can improve MT. This paper investigates best practices for employing multiple references by analyzing the semantic similarity among different English translations of world literature in the Par3 dataset. We classify the semantic similarity between paraphrases into three groups: low, medium, and high, and fine-tune two different LLMs (mT5-large and LLaMA-2-7B) for downstream MT tasks. Across different models, holding the total training instances constant, single-reference but more source texts only marginally outperforms multiple-reference with half of the source texts. Moreover, using paraphrases of medium and high semantic similarity outperforms an unfiltered dataset (+BLEU 0.3-0.5, +COMET 0.2-0.9, +chrF++ 0.25-0.32). Our code is publicly available on GitHub.
- Abstract(参考訳): ソース文は様々な方法で翻訳できるが、ほとんどの機械翻訳(MT)モデルは単一の参照で訓練される。
本稿では,Par3データセットにおける世界文学の異なる英訳間の意味的類似性を解析することにより,複数の参照を用いるためのベストプラクティスについて検討する。
我々は,パラフレーズ間の意味的類似性を低,中,高の3つのグループに分類し,下流MTタスクに対して2つの異なるLLM(mT5-largeおよびLLaMA-2-7B)を微調整する。
トレーニングの全インスタンスを一定に保ちながら、より多くのソーステキストは、ソーステキストの半分で多重参照をわずかに上回るだけである。
さらに、中・高意味の類似性のパラフレーズを用いることで、フィルタされていないデータセット(+BLEU 0.3-0.5, +COMET 0.2-0.9, +chrF++ 0.25-0.32)より優れている。
私たちのコードはGitHubで公開されています。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
本稿では,トランスリテライト・マージ文字化 (Transliterate-Merge-literation, TransMI) という,シンプルだが効果的な枠組みを提案する。
TransMIは、既存のmPLMとそのトークン化ツールをトレーニングなしで利用することにより、共通のスクリプトに書き起こされるデータの強力なベースラインを作成することができる。
実験の結果,TransMIはmPLMの非翻訳データ処理能力を保ちつつ,翻訳データを効果的に処理し,スクリプト間のクロスリンガル転送を容易にすることを実証した。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - RETSim: Resilient and Efficient Text Similarity [1.6228944467258688]
RETSimは、テキスト検索、クラスタリング、データセット重複タスクのための堅牢なメトリック埋め込みを生成するためにトレーニングされた、軽量で多言語的なディープラーニングモデルである。
我々は、RETSimがMinHashやニューラルテキストの埋め込みよりもはるかに堅牢で正確であることを実証した。
また,W4NT3Dベンチマークを用いて,多言語・ほぼ重複したテキスト検索機能の評価を行った。
論文 参考訳(メタデータ) (2023-11-28T22:54:33Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。