Fugu-MT 論文翻訳(概要): A Review of Human Evaluation for Style Transfer

論文の概要: A Review of Human Evaluation for Style Transfer

arxiv url: http://arxiv.org/abs/2106.04747v1
Date: Wed, 9 Jun 2021 00:29:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-11 08:24:13.364146
Title: A Review of Human Evaluation for Style Transfer
Title（参考訳）: スタイル伝達のための人的評価のレビュー
Authors: Eleftheria Briakou, Sweta Agrawal, Ke Zhang, Joel Tetreault and Marine Carpuat
Abstract要約: 本稿では,97 スタイルのトランスファー論文に記述された人的評価の実践をレビューし,要約する。人間の評価のためのプロトコルは、しばしば不特定であり、標準化されていない。
参考スコア（独自算出の注目度）: 12.641094377317904
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. In principle, evaluations by human raters should be the most reliable. However, in style transfer papers, we find that protocols for human evaluations are often underspecified and not standardized, which hampers the reproducibility of research in this field and progress toward better human and automatic evaluation methods.
Abstract（参考訳）: 本稿では,97 スタイルの伝達論文に記述されている人的評価の実践を,スタイルの伝達,保存,流布の3つの主要な評価側面についてレビューし,要約する。原則として、人間による評価が最も信頼性が高い。しかし, スタイル伝達論文では, ヒト評価のためのプロトコルが過小評価され, 標準化されていないことが判明し, この分野の研究の再現性を阻害し, よりよい人間的, 自動的評価手法への進歩がみられた。

関連論文リスト

HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Learning and Evaluating Human Preferences for Conversational Head Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。 PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文参考訳（メタデータ） (2023-07-20T07:04:16Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文参考訳（メタデータ） (2023-04-04T14:14:16Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Consultation Checklists: Standardising the Human Evaluation of Medical Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文参考訳（メタデータ） (2022-11-17T10:54:28Z)
Human Judgement as a Compass to Navigate Automatic Metrics for Formality Transfer [13.886432536330807]
形式性伝達の課題に焦点をあて、通常評価される3つの側面(スタイル強度、コンテンツ保存、流布)に焦点をあてる。フォーマル性伝達におけるこれらの指標の使用について、関連するタスクに対する一般化可能性(あるいはそうでない)に注目して、いくつかの推奨事項を提示します。
論文参考訳（メタデータ） (2022-04-15T17:15:52Z)
Counterfactually Evaluating Explanations in Recommender Systems [14.938252589829673]
人間の関与なしに計算できるオフライン評価手法を提案する。従来の手法と比較して,本手法は実際の人間の判断とより相関した評価スコアを得られることを示す。
論文参考訳（メタデータ） (2022-03-02T18:55:29Z)
Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-15T11:32:13Z)
All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text [46.260544251940125]
我々は、人間と機械によるテキストを区別する非専門家の能力を評価する研究を行っている。トレーニングなしでは、GPT3--と人間によるテキストをランダムな確率レベルで区別する評価器があることが判明した。
論文参考訳（メタデータ） (2021-06-30T19:00:25Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。