論文の概要: Evaluating Large Language Models on Urdu Idiom Translation
- arxiv url: http://arxiv.org/abs/2510.17460v1
- Date: Mon, 20 Oct 2025 11:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.044651
- Title: Evaluating Large Language Models on Urdu Idiom Translation
- Title(参考訳): ウルドゥーイディオム翻訳に基づく大規模言語モデルの評価
- Authors: Muhammad Farmal Khan, Mousumi Akter,
- Abstract要約: ウルドゥー語から英語の慣用翻訳のための最初の評価データセット
我々は,複数のオープンソースのLarge Language Models (LLM) とNeural Machine Translation (NMT) システムを評価する。
- 参考スコア(独自算出の注目度): 1.2318267573115806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idiomatic translation remains a significant challenge in machine translation, especially for low resource languages such as Urdu, and has received limited prior attention. To advance research in this area, we introduce the first evaluation datasets for Urdu to English idiomatic translation, covering both Native Urdu and Roman Urdu scripts and annotated with gold-standard English equivalents. We evaluate multiple open-source Large Language Models (LLMs) and Neural Machine Translation (NMT) systems on this task, focusing on their ability to preserve idiomatic and cultural meaning. Automatic metrics including BLEU, BERTScore, COMET, and XCOMET are used to assess translation quality. Our findings indicate that prompt engineering enhances idiomatic translation compared to direct translation, though performance differences among prompt types are relatively minor. Moreover, cross script comparisons reveal that text representation substantially affects translation quality, with Native Urdu inputs producing more accurate idiomatic translations than Roman Urdu.
- Abstract(参考訳): 慣用的な翻訳は、特にウルドゥー語のような低資源言語において、機械翻訳において重要な課題であり続けている。
この領域の研究を進めるために、ウルドゥー語を英語の慣用訳に導入し、ネイティブ・ウルドゥー語とローマ・ウルドゥー語の両方をカバーし、ゴールドスタンダードの英語の同義語で注釈付けした。
この課題に対して,複数のオープンソースのLarge Language Model (LLM) とNeural Machine Translation (NMT) システムの評価を行った。
BLEU、BERTScore、COMET、XCOMETなどの自動メトリクスを使用して翻訳品質を評価する。
本研究は,プロンプト型間の性能差は比較的小さいものの,プロンプト工学は直接翻訳に比べて慣用的翻訳を促進することを示唆している。
さらに、クロススクリプト比較では、テキスト表現が翻訳品質に大きく影響し、ネイティブウルドゥー入力はローマ・ウルドゥーよりも正確な慣用翻訳を生成する。
関連論文リスト
- Multi-perspective Alignment for Increasing Naturalness in Neural Machine Translation [11.875491080062233]
ニューラルマシン翻訳(NMT)システムは、トレーニングデータに存在する語彙バイアスを増幅し、出力翻訳において人工的に不十分な言語を生み出す。
自然とコンテンツ保存の両方に報いる新しい方法を提案する。
本手法は英蘭文翻訳において評価され,翻訳精度を損なうことなく,語彙的に豊かで,人文言語の性質が向上する翻訳モデルが得られた。
論文 参考訳(メタデータ) (2024-12-11T15:42:22Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。
また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文 参考訳(メタデータ) (2023-06-06T16:51:03Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - The first neural machine translation system for the Erzya language [0.0951828574518325]
絶滅危惧言語エルジーア語とロシア語を翻訳するための最初のニューラルマシン翻訳システムを提案する。
BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、翻訳の半数以上が母語話者によって受け入れられていると評価されている。
収集したテキストコーパス、新しい言語識別モデル、Erzya言語に適応した多言語文エンコーダとともに、翻訳モデルをリリースする。
論文 参考訳(メタデータ) (2022-09-19T22:21:37Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。