論文の概要: Neural Machine Translation for Malayalam Paraphrase Generation
- arxiv url: http://arxiv.org/abs/2401.17827v1
- Date: Wed, 31 Jan 2024 13:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:26:11.787429
- Title: Neural Machine Translation for Malayalam Paraphrase Generation
- Title(参考訳): マラヤラムパラフレーズ生成のためのニューラルネットワーク翻訳
- Authors: Christeena Varghese, Sergey Koshelev, Ivan P. Yamshchikov
- Abstract要約: 本研究では,マラヤラムでパラフレーズを生成する4つの方法について検討した。
BLEU, METEOR, cosine similarity などの自動指標と人間のアノテーションを用いて, 結果のパラフレーズを評価する。
- 参考スコア(独自算出の注目度): 7.535219325248997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores four methods of generating paraphrases in Malayalam,
utilizing resources available for English paraphrasing and pre-trained Neural
Machine Translation (NMT) models. We evaluate the resulting paraphrases using
both automated metrics, such as BLEU, METEOR, and cosine similarity, as well as
human annotation. Our findings suggest that automated evaluation measures may
not be fully appropriate for Malayalam, as they do not consistently align with
human judgment. This discrepancy underscores the need for more nuanced
paraphrase evaluation approaches especially for highly agglutinative languages.
- Abstract(参考訳): 本研究は,英語のパラフラージングモデルと学習済みニューラルマシン翻訳モデル(nmt)モデルに利用可能なリソースを活用する,マラヤラムにおけるパラフラシー生成の4つの方法を検討する。
BLEU, METEOR, cosine similarity などの自動指標と人間のアノテーションを用いて, 結果のパラフレーズを評価する。
以上の結果から,マラヤラムは人的判断と一貫して一致しないため,自動評価が完全には適切でない可能性が示唆された。
この違いは、特に高度に凝集的な言語において、よりニュアンスなパラフレーズ評価アプローチの必要性を浮き彫りにする。
関連論文リスト
- Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Automatic Evaluation and Analysis of Idioms in Neural Machine
Translation [12.227312923011986]
人間の関与なしにリテラル翻訳誤りの頻度を測定するための新しい指標を提案する。
モノリンガル事前学習の役割を探求し、それが実質的な改善をもたらすことを発見した。
ランダムなイディオムモデルは、文脈の変化の影響を受けないため、より局所的あるいは「ミオピック」であることが判明した。
論文 参考訳(メタデータ) (2022-10-10T10:30:09Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Phrase-level Adversarial Example Generation for Neural Machine
Translation [75.01476479100569]
本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2022-01-06T11:00:49Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Paraphrase Generation as Zero-Shot Multilingual Translation:
Disentangling Semantic Similarity from Lexical and Syntactic Diversity [11.564158965143418]
本稿では,入力に含まれるn-gramの生成を阻害する単純なパラフレーズ生成アルゴリズムを提案する。
一つの多言語NMTモデルから多くの言語でパラフレーズ生成が可能となる。
論文 参考訳(メタデータ) (2020-08-11T18:05:34Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。