論文の概要: Human Evaluation of Conversations is an Open Problem: comparing the
sensitivity of various methods for evaluating dialogue agents
- arxiv url: http://arxiv.org/abs/2201.04723v1
- Date: Wed, 12 Jan 2022 22:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:08:00.875647
- Title: Human Evaluation of Conversations is an Open Problem: comparing the
sensitivity of various methods for evaluating dialogue agents
- Title(参考訳): 会話の人的評価はオープンな問題である:対話エージェントの評価のための様々な方法の感度の比較
- Authors: Eric Michael Smith, Orion Hsu, Rebecca Qian, Stephen Roller, Y-Lan
Boureau, Jason Weston
- Abstract要約: 我々は,5種類の人的評価手法を比較した。
比較したモデルの種類によって異なる方法が最良であることに気付きました。
- 参考スコア(独自算出の注目度): 29.401357421642466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At the heart of improving conversational AI is the open problem of how to
evaluate conversations. Issues with automatic metrics are well known (Liu et
al., 2016, arXiv:1603.08023), with human evaluations still considered the gold
standard. Unfortunately, how to perform human evaluations is also an open
problem: differing data collection methods have varying levels of human
agreement and statistical sensitivity, resulting in differing amounts of human
annotation hours and labor costs. In this work we compare five different
crowdworker-based human evaluation methods and find that different methods are
best depending on the types of models compared, with no clear winner across the
board. While this highlights the open problems in the area, our analysis leads
to advice of when to use which one, and possible future directions.
- Abstract(参考訳): 会話AIの改善の中心は、会話を評価するためのオープンな問題である。
自動測定の問題はよく知られている(Liu et al., 2016 arXiv:1603.08023)。
残念なことに、人間の評価を行う方法もまたオープンな問題であり、異なるデータ収集手法は、人間の合意や統計的感度のレベルが異なるため、人間のアノテーション時間と労働コストが異なる。
本研究では,5つの異なるcrowdworkerに基づく人格評価手法を比較し,モデルの種類によって異なる方法が最適であることを見出した。
このことは領域のオープンな問題を浮き彫りにするが、我々の分析はいつどの領域を使うべきか、将来の可能性についてアドバイスを導き出す。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - Open-Domain Dialog Evaluation using Follow-Ups Likelihood [7.327190547312686]
本稿では,フォローアップを用いた新しい自動評価手法を提案する。
12種類の既存手法と比較すると, 人的評価と高い相関が得られた。
論文 参考訳(メタデータ) (2022-09-12T12:22:31Z) - Ditch the Gold Standard: Re-evaluating Conversational Question Answering [9.194536300785481]
我々は,最先端CQAシステムの大規模評価を行う。
その結果,人間と機械の会話の分布は人間と機械の会話とは大きく異なることがわかった。
本研究では,予測履歴に基づく質問書き直し機構を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:57:56Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。