Fugu-MT 論文翻訳(概要): CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge Model to Improve Agreement with Human Judgements

論文の概要: CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge Model to Improve Agreement with Human Judgements

arxiv url: http://arxiv.org/abs/2108.09484v1
Date: Sat, 21 Aug 2021 10:21:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-24 16:08:02.202918
Title: CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge Model to Improve Agreement with Human Judgements
Title（参考訳）: CushLEPOR: LABSE蒸留知識モデルを用いたカスタマイズhLEPORメトリクスによる人的判断との整合性向上
Authors: Lifeng Han, Irina Sorokina, Gleb Erofeev, Serge Gladkoff
Abstract要約: 事前学習された言語モデル(PLM)と制限された人間のラベル付きスコアの利点を生かして、従来のメトリクスのカスタマイズ方法を示す。本稿では, LABSE蒸留知識モデルを用いたhLEPORのカスタマイズについて述べる。また、英語とドイツ語と中国語のペアにおけるMQMおよびpSQMフレームワークに基づく評価データに対して、cushLEPORを最適化する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human evaluation has always been expensive while researchers struggle to trust the automatic metrics. To address this, we propose to customise traditional metrics by taking advantages of the pre-trained language models (PLMs) and the limited available human labelled scores. We first re-introduce the hLEPOR metric factors, followed by the Python portable version we developed which achieved the automatic tuning of the weighting parameters in hLEPOR metric. Then we present the customised hLEPOR (cushLEPOR) which uses LABSE distilled knowledge model to improve the metric agreement with human judgements by automatically optimised factor weights regarding the exact MT language pairs that cushLEPOR is deployed to. We also optimise cushLEPOR towards human evaluation data based on MQM and pSQM framework on English-German and Chinese-English language pairs. The experimental investigations show cushLEPOR boosts hLEPOR performances towards better agreements to PLMs like LABSE with much lower cost, and better agreements to human evaluations including MQM and pSQM scores, and yields much better performances than BLEU (data available at \url{https://github.com/poethan/cushLEPOR}).
Abstract（参考訳）: 人間の評価は常に高価で、研究者は自動メトリクスを信頼できない。そこで本稿では,事前学習型言語モデル(PLM)と限定された人間のラベル付きスコアの利点を生かして,従来のメトリクスをカスタマイズすることを提案する。まず、hLEPORのパラメータ要素を再導入し、次に、hLEPORのパラメータの重み付けを自動的にチューニングするPythonポータブルバージョンを開発しました。次に、LABSE蒸留知識モデルを用いて、cushLEPORが配置された正確なMT言語対に関する因子重みを自動的に最適化することにより、人間の判断とのメートル法合意を向上する、カスタマイズhLEPOR(cushLEPOR)を提案する。また、英語とドイツ語と中国語のペアにおけるMQMおよびpSQMフレームワークに基づく評価データに対して、cushLEPORを最適化する。実験の結果、CushLEPOR は LABSE のような PLM とのより優れた契約、MQM や pSQM などの人的評価に対するより良い合意、BLEU よりもはるかに優れたパフォーマンスをもたらすことが示されている(データは \url{https://github.com/poethan/cushLEPOR} で入手できる)。

関連論文リスト

LLMs Are Not Scorers: Rethinking MT Evaluation with Generation-Based Methods [0.0]
本稿では,デコーダのみの言語モデルを利用して高品質な参照を生成する世代ベース評価パラダイムを提案する。実験の結果,本手法はMTMEのLLM内直接スコアリング基準値と外部非LLM基準値の両方より優れていた。
論文参考訳（メタデータ） (2025-05-22T02:14:38Z)
FUSE : A Ridge and Random Forest-Based Metric for Evaluating MT in Indigenous Languages [2.377892000761193]
本稿では,RaaVaチームのAmerices 2025 Shared Task 3における自動機械翻訳のための評価基準の獲得について述べる。評価のためのFUSE (Feature-Union Scorer) を導入し,FUSEはリッジ回帰とグラディエントブースティングを統合して翻訳品質をモデル化する。その結果,FUSE はPearson と Spearman の相関関係を人間の判断と連続的に向上させることがわかった。
論文参考訳（メタデータ） (2025-03-28T06:58:55Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
An Analysis on Automated Metrics for Evaluating Japanese-English Chat Translation [0.0]
チャット翻訳におけるNMTモデルのランク付けには、どのモデルが他のモデルより優れているかを判断する上で、すべての指標が一貫したように見える。一方、ニューラルベースメトリクスは従来のメトリクスよりも優れており、COMETはチャット翻訳における人間の注釈付きスコアとの相関が最も高い。
論文参考訳（メタデータ） (2024-12-24T05:54:40Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
PPLqa: An Unsupervised Information-Theoretic Quality Metric for Comparing Generative Large Language Models [9.027802326177135]
生成型大規模言語モデル(LLM)の応答の質を測定するため,計算が容易で言語に依存しない情報理論の指標であるPPLqaを提案する。この方法と測定基準により、ユーザが生成言語モデルに応答の質をランク付けし、与えられたタスクに最適なモデルを選択することができる。
論文参考訳（メタデータ） (2024-11-22T19:28:06Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文参考訳（メタデータ） (2024-06-21T15:11:33Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation [0.6998085564793366]
本研究は品質推定量(QE)を用いて翻訳を合成するQE融合を導入する。提案手法は, 半数以上の症例において, 新規な翻訳を生成できることを実証する。我々は、QE融合がプール内の候補数と線形にスケールすることを実証的に確立する。
論文参考訳（メタデータ） (2024-01-12T16:52:41Z)
What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文参考訳（メタデータ） (2023-09-19T01:59:54Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文参考訳（メタデータ） (2022-10-18T08:51:25Z)
How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文参考訳（メタデータ） (2021-12-02T15:40:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。