論文の概要: Reproducible Subjective Evaluation
- arxiv url: http://arxiv.org/abs/2203.04444v1
- Date: Tue, 8 Mar 2022 23:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 05:46:09.455240
- Title: Reproducible Subjective Evaluation
- Title(参考訳): 再現可能な主観評価
- Authors: Max Morrison, Brian Tang, Gefei Tan, and Bryan Pardo
- Abstract要約: クラウドソース型主観評価をPythonから直接デプロイするオープンソースのフレームワークであるReproducible Subjective Evaluation (ReSEval)を提案する。
ReSEvalは、A/B、ABX、平均オピニオンスコア(MOS)、MUltiple StimuliをHidden Reference and Anchor(MUSHRA)テストで起動する。
研究者は、設定ファイルとオーディオ、画像、テキスト、ビデオファイルを共有することで、互いの主観評価を再現することができる。
- 参考スコア(独自算出の注目度): 6.88774493429635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human perceptual studies are the gold standard for the evaluation of many
research tasks in machine learning, linguistics, and psychology. However, these
studies require significant time and cost to perform. As a result, many
researchers use objective measures that can correlate poorly with human
evaluation. When subjective evaluations are performed, they are often not
reported with sufficient detail to ensure reproducibility. We propose
Reproducible Subjective Evaluation (ReSEval), an open-source framework for
quickly deploying crowdsourced subjective evaluations directly from Python.
ReSEval lets researchers launch A/B, ABX, Mean Opinion Score (MOS) and MUltiple
Stimuli with Hidden Reference and Anchor (MUSHRA) tests on audio, image, text,
or video data from a command-line interface or using one line of Python, making
it as easy to run as objective evaluation. With ReSEval, researchers can
reproduce each other's subjective evaluations by sharing a configuration file
and the audio, image, text, or video files.
- Abstract(参考訳): 人間の知覚研究は、機械学習、言語学、心理学における多くの研究タスクを評価するための金の標準である。
しかし、これらの研究にはかなりの時間と費用が要る。
その結果、多くの研究者は人間の評価と相関する客観的な尺度を用いている。
主観評価を行う場合、再現性を確保するために十分な詳細が報告されないことが多い。
クラウドソース型主観評価をPythonから直接素早く展開するためのオープンソースのフレームワークであるReproducible Subjective Evaluation (ReSEval)を提案する。
resevalを使用すると、研究者はa/b、abx、平均意見スコア(mos)、複数の刺激をコマンド・ライン・インターフェースからオーディオ、画像、テキスト、ビデオデータに対する隠れた参照およびアンカー(mushra)テストで起動し、客観的評価と同じくらい簡単に実行することができる。
ReSEvalでは、構成ファイルとオーディオ、画像、テキスト、ビデオファイルを共有することで、互いの主観評価を再現することができる。
関連論文リスト
- RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue [37.82954848948347]
マルチタスク学習フレームワークを用いた参照支援対話評価(RADE)手法を提案する。
RADEは、参照と候補のレスポンスを明示的に比較して、全体のスコアを予測する。
3つのデータセットと2つの既存のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-09-15T04:47:19Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文 参考訳(メタデータ) (2023-04-04T14:14:16Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。