論文の概要: CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge
Model to Improve Agreement with Human Judgements
- arxiv url: http://arxiv.org/abs/2108.09484v1
- Date: Sat, 21 Aug 2021 10:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 16:08:02.202918
- Title: CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge
Model to Improve Agreement with Human Judgements
- Title(参考訳): CushLEPOR: LABSE蒸留知識モデルを用いたカスタマイズhLEPORメトリクスによる人的判断との整合性向上
- Authors: Lifeng Han, Irina Sorokina, Gleb Erofeev, Serge Gladkoff
- Abstract要約: 事前学習された言語モデル(PLM)と制限された人間のラベル付きスコアの利点を生かして、従来のメトリクスのカスタマイズ方法を示す。
本稿では, LABSE蒸留知識モデルを用いたhLEPORのカスタマイズについて述べる。
また、英語とドイツ語と中国語のペアにおけるMQMおよびpSQMフレームワークに基づく評価データに対して、cushLEPORを最適化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human evaluation has always been expensive while researchers struggle to
trust the automatic metrics. To address this, we propose to customise
traditional metrics by taking advantages of the pre-trained language models
(PLMs) and the limited available human labelled scores. We first re-introduce
the hLEPOR metric factors, followed by the Python portable version we developed
which achieved the automatic tuning of the weighting parameters in hLEPOR
metric. Then we present the customised hLEPOR (cushLEPOR) which uses LABSE
distilled knowledge model to improve the metric agreement with human judgements
by automatically optimised factor weights regarding the exact MT language pairs
that cushLEPOR is deployed to. We also optimise cushLEPOR towards human
evaluation data based on MQM and pSQM framework on English-German and
Chinese-English language pairs. The experimental investigations show cushLEPOR
boosts hLEPOR performances towards better agreements to PLMs like LABSE with
much lower cost, and better agreements to human evaluations including MQM and
pSQM scores, and yields much better performances than BLEU (data available at
\url{https://github.com/poethan/cushLEPOR}).
- Abstract(参考訳): 人間の評価は常に高価で、研究者は自動メトリクスを信頼できない。
そこで本稿では,事前学習型言語モデル(PLM)と限定された人間のラベル付きスコアの利点を生かして,従来のメトリクスをカスタマイズすることを提案する。
まず、hLEPORのパラメータ要素を再導入し、次に、hLEPORのパラメータの重み付けを自動的にチューニングするPythonポータブルバージョンを開発しました。
次に、LABSE蒸留知識モデルを用いて、cushLEPORが配置された正確なMT言語対に関する因子重みを自動的に最適化することにより、人間の判断とのメートル法合意を向上する、カスタマイズhLEPOR(cushLEPOR)を提案する。
また、英語とドイツ語と中国語のペアにおけるMQMおよびpSQMフレームワークに基づく評価データに対して、cushLEPORを最適化する。
実験の結果、CushLEPOR は LABSE のような PLM とのより優れた契約、MQM や pSQM などの人的評価に対するより良い合意、BLEU よりもはるかに優れたパフォーマンスをもたらすことが示されている(データは \url{https://github.com/poethan/cushLEPOR} で入手できる)。
関連論文リスト
- A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - An Analysis on Automated Metrics for Evaluating Japanese-English Chat Translation [0.0]
チャット翻訳におけるNMTモデルのランク付けには、どのモデルが他のモデルより優れているかを判断する上で、すべての指標が一貫したように見える。
一方、ニューラルベースメトリクスは従来のメトリクスよりも優れており、COMETはチャット翻訳における人間の注釈付きスコアとの相関が最も高い。
論文 参考訳(メタデータ) (2024-12-24T05:54:40Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - PPLqa: An Unsupervised Information-Theoretic Quality Metric for Comparing Generative Large Language Models [9.027802326177135]
生成型大規模言語モデル(LLM)の応答の質を測定するため,計算が容易で言語に依存しない情報理論の指標であるPPLqaを提案する。
この方法と測定基準により、ユーザが生成言語モデルに応答の質をランク付けし、与えられたタスクに最適なモデルを選択することができる。
論文 参考訳(メタデータ) (2024-11-22T19:28:06Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文 参考訳(メタデータ) (2022-10-18T08:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。