論文の概要: CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge
Model to Improve Agreement with Human Judgements
- arxiv url: http://arxiv.org/abs/2108.09484v1
- Date: Sat, 21 Aug 2021 10:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 16:08:02.202918
- Title: CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge
Model to Improve Agreement with Human Judgements
- Title(参考訳): CushLEPOR: LABSE蒸留知識モデルを用いたカスタマイズhLEPORメトリクスによる人的判断との整合性向上
- Authors: Lifeng Han, Irina Sorokina, Gleb Erofeev, Serge Gladkoff
- Abstract要約: 事前学習された言語モデル(PLM)と制限された人間のラベル付きスコアの利点を生かして、従来のメトリクスのカスタマイズ方法を示す。
本稿では, LABSE蒸留知識モデルを用いたhLEPORのカスタマイズについて述べる。
また、英語とドイツ語と中国語のペアにおけるMQMおよびpSQMフレームワークに基づく評価データに対して、cushLEPORを最適化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human evaluation has always been expensive while researchers struggle to
trust the automatic metrics. To address this, we propose to customise
traditional metrics by taking advantages of the pre-trained language models
(PLMs) and the limited available human labelled scores. We first re-introduce
the hLEPOR metric factors, followed by the Python portable version we developed
which achieved the automatic tuning of the weighting parameters in hLEPOR
metric. Then we present the customised hLEPOR (cushLEPOR) which uses LABSE
distilled knowledge model to improve the metric agreement with human judgements
by automatically optimised factor weights regarding the exact MT language pairs
that cushLEPOR is deployed to. We also optimise cushLEPOR towards human
evaluation data based on MQM and pSQM framework on English-German and
Chinese-English language pairs. The experimental investigations show cushLEPOR
boosts hLEPOR performances towards better agreements to PLMs like LABSE with
much lower cost, and better agreements to human evaluations including MQM and
pSQM scores, and yields much better performances than BLEU (data available at
\url{https://github.com/poethan/cushLEPOR}).
- Abstract(参考訳): 人間の評価は常に高価で、研究者は自動メトリクスを信頼できない。
そこで本稿では,事前学習型言語モデル(PLM)と限定された人間のラベル付きスコアの利点を生かして,従来のメトリクスをカスタマイズすることを提案する。
まず、hLEPORのパラメータ要素を再導入し、次に、hLEPORのパラメータの重み付けを自動的にチューニングするPythonポータブルバージョンを開発しました。
次に、LABSE蒸留知識モデルを用いて、cushLEPORが配置された正確なMT言語対に関する因子重みを自動的に最適化することにより、人間の判断とのメートル法合意を向上する、カスタマイズhLEPOR(cushLEPOR)を提案する。
また、英語とドイツ語と中国語のペアにおけるMQMおよびpSQMフレームワークに基づく評価データに対して、cushLEPORを最適化する。
実験の結果、CushLEPOR は LABSE のような PLM とのより優れた契約、MQM や pSQM などの人的評価に対するより良い合意、BLEU よりもはるかに優れたパフォーマンスをもたらすことが示されている(データは \url{https://github.com/poethan/cushLEPOR} で入手できる)。
関連論文リスト
- PPLqa: An Unsupervised Information-Theoretic Quality Metric for Comparing Generative Large Language Models [9.027802326177135]
生成型大規模言語モデル(LLM)の応答の質を測定するため,計算が容易で言語に依存しない情報理論の指標であるPPLqaを提案する。
この方法と測定基準により、ユーザが生成言語モデルに応答の質をランク付けし、与えられたタスクに最適なモデルを選択することができる。
論文 参考訳(メタデータ) (2024-11-22T19:28:06Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation [0.6998085564793366]
本研究は品質推定量(QE)を用いて翻訳を合成するQE融合を導入する。
提案手法は, 半数以上の症例において, 新規な翻訳を生成できることを実証する。
我々は、QE融合がプール内の候補数と線形にスケールすることを実証的に確立する。
論文 参考訳(メタデータ) (2024-01-12T16:52:41Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文 参考訳(メタデータ) (2022-10-18T08:51:25Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。