論文の概要: Automatic Evaluation Metrics for Document-level Translation: Overview, Challenges and Trends
- arxiv url: http://arxiv.org/abs/2504.14804v1
- Date: Mon, 21 Apr 2025 02:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:57:05.749821
- Title: Automatic Evaluation Metrics for Document-level Translation: Overview, Challenges and Trends
- Title(参考訳): 文書レベルの翻訳のための自動評価基準:概要・課題・動向
- Authors: Jiaxin GUO, Xiaoyu Chen, Zhiqiang Rao, Jinlong Yang, Zongyao Li, Hengchao Shang, Daimeng Wei, Hao Yang,
- Abstract要約: 本稿ではまず,文書レベルの翻訳と評価の重要性について紹介する。
次に、自動評価スキームとメトリクスの現状を詳細に分析する。
本稿では,参照多様性の欠如,文レベルのアライメント情報への依存,バイアス,不正確性,解釈可能性の欠如など,現在の評価手法が直面する課題について考察する。
- 参考スコア(独自算出の注目度): 12.73291001580361
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid development of deep learning technologies, the field of machine translation has witnessed significant progress, especially with the advent of large language models (LLMs) that have greatly propelled the advancement of document-level translation. However, accurately evaluating the quality of document-level translation remains an urgent issue. This paper first introduces the development status of document-level translation and the importance of evaluation, highlighting the crucial role of automatic evaluation metrics in reflecting translation quality and guiding the improvement of translation systems. It then provides a detailed analysis of the current state of automatic evaluation schemes and metrics, including evaluation methods with and without reference texts, as well as traditional metrics, Model-based metrics and LLM-based metrics. Subsequently, the paper explores the challenges faced by current evaluation methods, such as the lack of reference diversity, dependence on sentence-level alignment information, and the bias, inaccuracy, and lack of interpretability of the LLM-as-a-judge method. Finally, the paper looks ahead to the future trends in evaluation methods, including the development of more user-friendly document-level evaluation methods and more robust LLM-as-a-judge methods, and proposes possible research directions, such as reducing the dependency on sentence-level information, introducing multi-level and multi-granular evaluation approaches, and training models specifically for machine translation evaluation. This study aims to provide a comprehensive analysis of automatic evaluation for document-level translation and offer insights into future developments.
- Abstract(参考訳): ディープラーニング技術の急速な発展に伴い、機械翻訳の分野は著しく進歩し、特に文書レベルの翻訳の進歩を大いに促進する大規模言語モデル(LLM)が出現した。
しかし、文書レベルの翻訳の質を正確に評価することは急務である。
本稿ではまず,文書レベルの翻訳の発達状況と評価の重要性について紹介し,翻訳品質を反映し,翻訳システムの改善を導く上で,自動評価指標の重要性を強調した。
次に、参照テキストと非参照テキストによる評価方法、従来のメトリクス、モデルベースのメトリクス、LLMベースのメトリクスを含む、自動評価スキームとメトリクスの現状を詳細に分析する。
そこで本研究では,参照多様性の欠如,文レベルのアライメント情報への依存,バイアス,不正確性,LCM-as-a-judge法の解釈可能性の欠如など,現在の評価手法が直面する課題について検討する。
最後に, よりユーザフレンドリな文書レベル評価手法やより堅牢なLCM-as-a-judge手法の開発など, 評価手法の今後の動向に注目し, 文レベル情報への依存性の低減, マルチレベル・マルチグラニュラ評価手法の導入, 機械翻訳評価に特化してトレーニングモデルを提案する。
本研究の目的は,文書レベルの翻訳における自動評価の包括的分析と,今後の発展への洞察を提供することである。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy [52.261323452286554]
本稿では,評価指標の局所的メートル法精度を比較することによって,文脈的メタ評価手法を提案する。
翻訳,音声認識,ランキングタスクを通じて,局所的計量精度が絶対値と相対的有効性の両方で異なることを示す。
論文 参考訳(メタデータ) (2025-03-25T16:42:25Z) - Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。
さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。
本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文 参考訳(メタデータ) (2024-07-29T03:37:14Z) - From Handcrafted Features to LLMs: A Brief Survey for Machine Translation Quality Estimation [20.64204462700532]
機械翻訳品質推定(MTQE)は、機械翻訳テキストの品質を基準翻訳を必要とせずにリアルタイムで推定するタスクである。
本稿では、QEデータセット、アノテーションメソッド、共有タスク、方法論、課題、今後の研究方向性について概観する。
論文 参考訳(メタデータ) (2024-03-21T04:07:40Z) - Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - An Overview on Machine Translation Evaluation [6.85316573653194]
機械翻訳(MT)はAIと開発の重要なタスクの1つとなっている。
MTの評価課題は,機械翻訳の質を評価するだけでなく,機械翻訳研究者にタイムリーなフィードバックを与えることである。
本報告は,機械翻訳評価(MTE)の略歴,MTE研究手法の分類,最先端の進展について概説する。
論文 参考訳(メタデータ) (2022-02-22T16:58:28Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。