論文の概要: Assessing and Improving Punctuation Robustness in English-Marathi Machine Translation
- arxiv url: http://arxiv.org/abs/2601.09725v2
- Date: Fri, 16 Jan 2026 08:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.705764
- Title: Assessing and Improving Punctuation Robustness in English-Marathi Machine Translation
- Title(参考訳): 英語・マラティー語機械翻訳における句読解ロバスト性の評価と改善
- Authors: Kaustubh Shivshankar Shejole, Sourabh Deoghare, Pushpak Bhattacharyya,
- Abstract要約: 句読解は、文章言語における意味的・構造的あいまいさの解消に重要な役割を果たしている。
英語とマラソン機械翻訳における句読点の堅牢性を評価するための最初の診断ベンチマークであるVirmを紹介する。
信頼性向上のための2つの主要な戦略として,パイプラインベースの復元翻訳手法と,句読影データを直接微調整する手法について検討した。
- 参考スコア(独自算出の注目度): 41.84500687049023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Punctuation plays a critical role in resolving semantic and structural ambiguity in written language. Machine Translation (MT) systems are now widely applied across diverse domains and languages, including many low-resource settings. In this work, we focus on Marathi, a low- to middle-resource language. We introduce Virām, the first diagnostic benchmark for assessing punctuation robustness in English-to-Marathi machine translation, consisting of 54 manually curated, punctuation-ambiguous instances. We evaluate two primary strategies for enhancing reliability: a pipeline-based restore-then-translate approach and direct fine-tuned on punctuation-varied data. Our results demonstrate that specialized fine-tuned models and pipeline systems significantly improve translation quality over standard baselines on the Virām benchmark. Qualitative analysis reveals that the original model may result in wrong translations leading to wrong interpretations, while fine-tuned models significantly improve overall reliability. Furthermore, we find that current Large Language Models (LLMs) lag behind these task-specific approaches in preserving meaning for punctuation-ambiguous text, thus necessitating further research in this area. The code and dataset is available at https://github.com/KaustubhShejole/Viram_Marathi.
- Abstract(参考訳): 句読解は、文章言語における意味的・構造的あいまいさの解消に重要な役割を果たしている。
機械翻訳(MT)システムは、多くの低リソース設定を含む様々なドメインや言語に広く適用されている。
この作業では、低-中-オープンソースの言語であるMarathiに注目します。
Virāmは、英語からマラタイ語への機械翻訳における句読解の堅牢性を評価するための最初の診断ベンチマークであり、54個の手作業による句読解型インスタンスからなる。
信頼性向上のための2つの主要な戦略として,パイプラインベースの復元翻訳手法と,句読影データを直接微調整する手法について検討した。
この結果から, Virāmベンチマークの標準ベースラインよりも, 微調整モデルとパイプラインシステムにより翻訳品質が大幅に向上することが示唆された。
定性的な分析により、オリジナルのモデルは間違った解釈をもたらす誤った翻訳をもたらす可能性があるが、微調整されたモデルは全体的な信頼性を著しく向上させる。
さらに,現在のLarge Language Models (LLMs) は,句読点・あいまいなテキストの意味を保ちながら,これらのタスク固有のアプローチに遅れがあることが判明した。
コードとデータセットはhttps://github.com/KaustubhShejole/Viram_Marathi.comで公開されている。
関連論文リスト
- Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。
本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文 参考訳(メタデータ) (2025-09-24T15:02:57Z) - Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。
真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。
我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文 参考訳(メタデータ) (2025-08-28T07:52:42Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Enhancing Neural Machine Translation of Low-Resource Languages: Corpus
Development, Human Evaluation and Explainable AI Architectures [0.0]
Transformerアーキテクチャは、特に高リソースの言語ペアにおいて、ゴールドスタンダードとして際立っている。
低リソース言語のための並列データセットの不足は、機械翻訳開発を妨げる可能性がある。
この論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイのために合理化された2つのオープンソースアプリケーションであるAdaptNMTとAdaptMLLMを紹介している。
論文 参考訳(メタデータ) (2024-03-03T18:08:30Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。