論文の概要: On User Interfaces for Large-Scale Document-Level Human Evaluation of
Machine Translation Outputs
- arxiv url: http://arxiv.org/abs/2104.10408v1
- Date: Wed, 21 Apr 2021 08:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:28:20.914164
- Title: On User Interfaces for Large-Scale Document-Level Human Evaluation of
Machine Translation Outputs
- Title(参考訳): 機械翻訳出力の大規模文書レベルヒューマン評価のためのユーザインタフェースについて
- Authors: Roman Grundkiewicz, Marcin Junczys-Dowmunt, Christian Federmann and
Tom Kocmi
- Abstract要約: 評価に対するドキュメント中心のアプローチは、より高い品質セグメントとドキュメントレベルの評価につながることを示す。
セグメントと文書スコアの相関を改善し、文書スコアのアノテータ間合意を増加させるが、アノテータにはかなり時間がかかる。
- 参考スコア(独自算出の注目度): 6.9994679170640905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies emphasize the need of document context in human evaluation of
machine translations, but little research has been done on the impact of user
interfaces on annotator productivity and the reliability of assessments. In
this work, we compare human assessment data from the last two WMT evaluation
campaigns collected via two different methods for document-level evaluation.
Our analysis shows that a document-centric approach to evaluation where the
annotator is presented with the entire document context on a screen leads to
higher quality segment and document level assessments. It improves the
correlation between segment and document scores and increases inter-annotator
agreement for document scores but is considerably more time consuming for
annotators.
- Abstract(参考訳): 近年,機械翻訳評価における文書コンテキストの必要性が強調されているが,ユーザインタフェースがアノテータの生産性や評価の信頼性に与える影響についてはほとんど研究されていない。
本研究では,過去2回のwmt評価キャンペーンの人間評価データを,文書レベルの評価のために2つの異なる方法を用いて比較した。
分析の結果,アノテータが画面上の文書コンテキスト全体に対して提示される文書中心のアプローチは,高品質セグメントと文書レベルの評価につながることがわかった。
セグメントと文書スコアの相関を改善し、文書スコアのアノテータ間合意を増加させるが、アノテータにはかなり時間がかかる。
関連論文リスト
- Knowledge-Centric Templatic Views of Documents [2.8122829028152787]
著者はしばしば、異なる文書やフォーマットで同じ基礎知識について考えを組み立てる。
ドキュメント生成における以前の作業は、一般的に、各個別のフォーマットの作成をタスクが異なるものとみなしていた。
このアプローチは、研究とアプリケーションの両方の観点からAIが支援するコンテンツ作成の進歩に最適である。
論文 参考訳(メタデータ) (2024-01-13T01:22:15Z) - LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive
Summarisation [31.9615780503826]
事実整合性を維持することは抽象的なテキスト要約において重要な問題である。
ROUGEスコアリングなどのテキスト要約を評価するために使用される伝統的なメトリクスは、トークン制限がある。
本稿では,任意の長さの文書にメトリクスを拡張可能な新しい評価フレームワークであるLongDocFACTScoreを提案する。
論文 参考訳(メタデータ) (2023-09-21T19:54:54Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - Discourse Cohesion Evaluation for Document-Level Neural Machine
Translation [36.96887050831173]
優れた文書レベルのニューラルマシン翻訳(NMT)モデルによって生成された翻訳は一貫性があり一貫性があることが知られている。
BLEUのような既存の文レベルの評価指標は、文書レベルでのモデルの性能をほとんど反映できない。
文書翻訳の結束度を測定するために,4つの結束度を考慮した新しいテストスイートを提案する。
論文 参考訳(メタデータ) (2022-08-19T01:56:00Z) - MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation [66.60285024216573]
対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
論文 参考訳(メタデータ) (2021-12-14T07:01:20Z) - A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。
我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文 参考訳(メタデータ) (2021-01-26T19:21:09Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of
Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。
本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文 参考訳(メタデータ) (2020-06-10T23:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。