論文の概要: Evaluating the Impact of Verbal Multiword Expressions on Machine Translation
- arxiv url: http://arxiv.org/abs/2508.17458v1
- Date: Sun, 24 Aug 2025 17:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.536074
- Title: Evaluating the Impact of Verbal Multiword Expressions on Machine Translation
- Title(参考訳): 言語多語表現が機械翻訳に与える影響の評価
- Authors: Linfeng Liu, Saptarshi Ghosh, Tianyu Jiang,
- Abstract要約: 言語多語表現(VMWE)は、複雑でしばしば非構成的な性質のため、自然言語処理において重要な課題を呈している。
我々は3つのVMWEカテゴリー(動詞のイディオム、動詞の粒子構成、軽い動詞構成)が英語から複数言語への機械翻訳品質に与える影響を分析する。
- 参考スコア(独自算出の注目度): 5.812825068635779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verbal multiword expressions (VMWEs) present significant challenges for natural language processing due to their complex and often non-compositional nature. While machine translation models have seen significant improvement with the advent of language models in recent years, accurately translating these complex linguistic structures remains an open problem. In this study, we analyze the impact of three VMWE categories -- verbal idioms, verb-particle constructions, and light verb constructions -- on machine translation quality from English to multiple languages. Using both established multiword expression datasets and sentences containing these language phenomena extracted from machine translation datasets, we evaluate how state-of-the-art translation systems handle these expressions. Our experimental results consistently show that VMWEs negatively affect translation quality. We also propose an LLM-based paraphrasing approach that replaces these expressions with their literal counterparts, demonstrating significant improvement in translation quality for verbal idioms and verb-particle constructions.
- Abstract(参考訳): 言語多語表現(VMWE)は、複雑でしばしば非構成的な性質のため、自然言語処理において重要な課題を呈している。
近年の言語モデルの出現により機械翻訳モデルは大幅に改善されてきたが、これらの複雑な言語構造を正確に翻訳することは未解決の問題である。
本研究では,3つのVMWEカテゴリー(動詞イディオム,動詞粒子構成,軽動詞構成)が英語から複数言語への機械翻訳品質に与える影響を解析した。
機械翻訳データセットから抽出した言語現象を含む単語表現データセットと文の両方を用いて,最先端の翻訳システムがこれらの表現をどのように扱うかを評価する。
実験の結果,VMWEが翻訳品質に悪影響を及ぼすことが明らかとなった。
また,これらの表現をリテラル表現に置き換えたLLMに基づくパラフレーズ化手法を提案し,動詞のイディオムや動詞の粒子構造に対する翻訳品質の大幅な向上を示す。
関連論文リスト
- Paraphrase-Aligned Machine Translation [7.258916315600866]
大規模言語モデル(LLM)は機械翻訳において重要な機能を示している。
本稿では,LLMを微調整して文を言い換える手法であるParaAlign Translatorを提案する。
実験結果から,LLaMA-3-8Bモデルの性能は資源豊富な場合と低リソースの場合の両方で向上することが示された。
論文 参考訳(メタデータ) (2024-12-08T12:17:26Z) - Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss [9.807885676930308]
本稿では, 単語の非対称的な寄与を取り入れた三重項損失を用いた慣用性モデルを提案する。
提案手法はSemEvalの課題に基づいて評価され,多くの指標において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T14:21:41Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。