論文の概要: Crosslingual Optimized Metric for Translation Assessment of Indian Languages
- arxiv url: http://arxiv.org/abs/2509.17667v1
- Date: Mon, 22 Sep 2025 12:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.363529
- Title: Crosslingual Optimized Metric for Translation Assessment of Indian Languages
- Title(参考訳): インド語の翻訳評価のためのクロスリンガル最適化メトリクス
- Authors: Arafat Ahsan, Vandan Mujadia, Pruthwik Mishra, Yash Bhaskar, Dipti Misra Sharma,
- Abstract要約: 我々は、21の翻訳方向をカバーする13のインドの言語に対して、人間の評価評価データセットを作成する。
次に、このデータセットに基づいて、言語間最適化基準(COMTAIL)というニューラルネットワーク評価指標をトレーニングする。
最高のパフォーマンスのメートル法変種は、少なくとも1つのインド語の翻訳ペアをアジャッジする場合に、過去の最先端技術よりも顕著なパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 3.3904531496305683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation of translation remains a challenging task owing to the orthographic, morphological, syntactic and semantic richness and divergence observed across languages. String-based metrics such as BLEU have previously been extensively used for automatic evaluation tasks, but their limitations are now increasingly recognized. Although learned neural metrics have helped mitigate some of the limitations of string-based approaches, they remain constrained by a paucity of gold evaluation data in most languages beyond the usual high-resource pairs. In this present work we address some of these gaps. We create a large human evaluation ratings dataset for 13 Indian languages covering 21 translation directions and then train a neural translation evaluation metric named Cross-lingual Optimized Metric for Translation Assessment of Indian Languages (COMTAIL) on this dataset. The best performing metric variants show significant performance gains over previous state-of-the-art when adjudging translation pairs with at least one Indian language. Furthermore, we conduct a series of ablation studies to highlight the sensitivities of such a metric to changes in domain, translation quality, and language groupings. We release both the COMTAIL dataset and the accompanying metric models.
- Abstract(参考訳): 翻訳の自動評価は、言語間で観察される正書法、形態学的、統語論的、意味的豊かさとばらつきのため、依然として難しい課題である。
BLEUのような文字列ベースのメトリクスは、以前は自動評価タスクに広く使われてきたが、現在ではその制限がますます認識されている。
学習されたニューラルネットワークメトリクスは、文字列ベースのアプローチのいくつかの制限を軽減するのに役立っているが、通常の高リソースのペアを超えて、ほとんどの言語におけるゴールド評価データの曖昧さに制約されている。
本稿では,これらのギャップに対処する。
我々は、21の翻訳方向をカバーする13のインド言語に対する大規模な評価評価データセットを作成し、このデータセット上で、Cross-lingual Optimized Metric for Translation Assessment of Indian Languages (COMTAIL)というニューラルネットワーク評価指標をトレーニングする。
最高のパフォーマンスのメートル法変種は、少なくとも1つのインド語の翻訳ペアをアジャッジする場合に、過去の最先端技術よりも顕著なパフォーマンス向上を示す。
さらに、ドメイン、翻訳品質、言語グループ化の変化に対して、そのような指標の感性を強調するために、一連のアブレーション研究を実施している。
COMTAILデータセットと関連するメトリックモデルの両方をリリースする。
関連論文リスト
- Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization [13.458891794688551]
我々は,n-gramベースとニューラルベースの両方を生成するための評価指標を評価し,言語やタスク間での有効性を評価する。
本研究は,評価指標の言語タイプに対する感受性を明らかにするものである。
論文 参考訳(メタデータ) (2025-07-11T06:44:52Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文 参考訳(メタデータ) (2024-02-21T07:05:51Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。