論文の概要: The Eval4NLP Shared Task on Explainable Quality Estimation: Overview and
Results
- arxiv url: http://arxiv.org/abs/2110.04392v1
- Date: Fri, 8 Oct 2021 21:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 07:24:45.443865
- Title: The Eval4NLP Shared Task on Explainable Quality Estimation: Overview and
Results
- Title(参考訳): 説明可能な品質評価に関するEval4NLP共有タスクの概要と結果
- Authors: Marina Fomicheva, Piyawat Lertvittayakumjorn, Wei Zhao, Steffen Eger,
Yang Gao
- Abstract要約: ソース変換ペアが与えられた場合、このタスクは、翻訳の全体的な品質を示す文レベルスコアを提供するだけでなく、翻訳品質に悪影響を及ぼす単語を識別することで、このスコアを説明する必要がある。
共有タスクのデータ, ガイドライン, 評価設定を提示し, 6つのシステムについて記述し, 結果を分析した。
- 参考スコア(独自算出の注目度): 20.15825350326367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the Eval4NLP-2021shared task on explainable
quality estimation. Given a source-translation pair, this shared task requires
not only to provide a sentence-level score indicating the overall quality of
the translation, but also to explain this score by identifying the words that
negatively impact translation quality. We present the data, annotation
guidelines and evaluation setup of the shared task, describe the six
participating systems, and analyze the results. To the best of our knowledge,
this is the first shared task on explainable NLP evaluation metrics. Datasets
and results are available at https://github.com/eval4nlp/SharedTask2021.
- Abstract(参考訳): 本稿では,eval4nlp-2021共有課題である品質推定について述べる。
ソース-翻訳ペアが与えられた場合、この共有タスクは、翻訳の全体的な品質を示す文レベルスコアを提供するだけでなく、翻訳品質に悪影響を及ぼす単語を特定することによって、このスコアを説明する必要がある。
共有タスクのデータ, ガイドライン, 評価設定を提示し, 6つのシステムについて記述し, 結果を分析した。
我々の知る限りでは、これは説明可能なNLP評価指標に関する最初の共有タスクである。
データセットと結果はhttps://github.com/eval4nlp/sharedtask2021で入手できる。
関連論文リスト
- Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Exploring Prompting Large Language Models as Explainable Metrics [0.0]
本稿では,Large Language Models (LLMs) を用いた要約タスクの説明可能な評価のためのゼロショットプロンプトベースの戦略を提案する。
自然言語処理(NLP)における評価指標としてのLCMの有望な可能性を示す実験を行った。
得られた最良プロンプトの性能は、テストデータ上のテキスト要約タスクにおける人間の評価と、0.477のKendall相関を達成した。
論文 参考訳(メタデータ) (2023-11-20T06:06:22Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - SemEval-2022 Task 7: Identifying Plausible Clarifications of Implicit
and Underspecified Phrases in Instructional Texts [1.3586926359715774]
本稿では,SemEval-2022 Task 7について述べる。
本課題のデータセットは手作業によるハウツーガイドの明確化からなり,その代替的明確化と人体可視性判定の収集を行った。
参加システムの課題は,各文脈における明確化の妥当性を自動決定することであった。
論文 参考訳(メタデータ) (2023-09-21T14:19:04Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。