Fugu-MT 論文翻訳(概要): On User Interfaces for Large-Scale Document-Level Human Evaluation of Machine Translation Outputs

論文の概要: On User Interfaces for Large-Scale Document-Level Human Evaluation of Machine Translation Outputs

arxiv url: http://arxiv.org/abs/2104.10408v1
Date: Wed, 21 Apr 2021 08:40:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-22 14:28:20.914164
Title: On User Interfaces for Large-Scale Document-Level Human Evaluation of Machine Translation Outputs
Title（参考訳）: 機械翻訳出力の大規模文書レベルヒューマン評価のためのユーザインタフェースについて
Authors: Roman Grundkiewicz, Marcin Junczys-Dowmunt, Christian Federmann and Tom Kocmi
Abstract要約: 評価に対するドキュメント中心のアプローチは、より高い品質セグメントとドキュメントレベルの評価につながることを示す。セグメントと文書スコアの相関を改善し、文書スコアのアノテータ間合意を増加させるが、アノテータにはかなり時間がかかる。
参考スコア（独自算出の注目度）: 6.9994679170640905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies emphasize the need of document context in human evaluation of machine translations, but little research has been done on the impact of user interfaces on annotator productivity and the reliability of assessments. In this work, we compare human assessment data from the last two WMT evaluation campaigns collected via two different methods for document-level evaluation. Our analysis shows that a document-centric approach to evaluation where the annotator is presented with the entire document context on a screen leads to higher quality segment and document level assessments. It improves the correlation between segment and document scores and increases inter-annotator agreement for document scores but is considerably more time consuming for annotators.
Abstract（参考訳）: 近年,機械翻訳評価における文書コンテキストの必要性が強調されているが,ユーザインタフェースがアノテータの生産性や評価の信頼性に与える影響についてはほとんど研究されていない。本研究では,過去2回のwmt評価キャンペーンの人間評価データを,文書レベルの評価のために2つの異なる方法を用いて比較した。分析の結果,アノテータが画面上の文書コンテキスト全体に対して提示される文書中心のアプローチは,高品質セグメントと文書レベルの評価につながることがわかった。セグメントと文書スコアの相関を改善し、文書スコアのアノテータ間合意を増加させるが、アノテータにはかなり時間がかかる。

関連論文リスト

Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文参考訳（メタデータ） (2024-10-10T08:04:10Z)
Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文参考訳（メタデータ） (2024-06-06T09:18:42Z)
Knowledge-Centric Templatic Views of Documents [2.654058995940072]
著者はしばしば、スライドデッキ、ニュースレター、レポート、ポスターなど、様々な文書形式でアイデアを共有している。文書生成装置の品質測定に適応できる新しい統一評価フレームワークを提案する。人間の評価を行い,提案手法を用いて作成した文書の82%を利用者が好んでいることを示す。
論文参考訳（メタデータ） (2024-01-13T01:22:15Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Consultation Checklists: Standardising the Human Evaluation of Medical Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文参考訳（メタデータ） (2022-11-17T10:54:28Z)
Discourse Cohesion Evaluation for Document-Level Neural Machine Translation [36.96887050831173]
優れた文書レベルのニューラルマシン翻訳(NMT)モデルによって生成された翻訳は一貫性があり一貫性があることが知られている。 BLEUのような既存の文レベルの評価指標は、文書レベルでのモデルの性能をほとんど反映できない。文書翻訳の結束度を測定するために,4つの結束度を考慮した新しいテストスイートを提案する。
論文参考訳（メタデータ） (2022-08-19T01:56:00Z)
A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文参考訳（メタデータ） (2021-01-26T19:21:09Z)
Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文参考訳（メタデータ） (2020-10-14T13:58:53Z)
Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of Current Evaluation Protocols [17.14709845342071]
現状では、チャット指向対話管理システムを評価するための様々な評価プロトコルが提案されている。本稿では,対話システムにおける自動評価手法と人的評価手法の総合的な合成について述べる。
論文参考訳（メタデータ） (2020-06-10T23:29:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。