論文の概要: Active Evaluation: Efficient NLG Evaluation with Few Pairwise
Comparisons
- arxiv url: http://arxiv.org/abs/2203.06063v1
- Date: Fri, 11 Mar 2022 16:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 11:57:55.014247
- Title: Active Evaluation: Efficient NLG Evaluation with Few Pairwise
Comparisons
- Title(参考訳): 能動的評価:少ない対比較による効率的なnlg評価
- Authors: Akash Kumar Mohankumar, Mitesh M. Khapra
- Abstract要約: トップランクのシステムを効率的に識別するフレームワークであるActive Evaluationを導入する。
人間のアノテーションの数を80%削減できることを示す。
また,自動評価指標と人的評価を併用したモデルベースデュエルバンディットアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.547476809031764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown the advantages of evaluating NLG systems using
pairwise comparisons as opposed to direct assessment. Given $k$ systems, a
naive approach for identifying the top-ranked system would be to uniformly
obtain pairwise comparisons from all ${k \choose 2}$ pairs of systems. However,
this can be very expensive as the number of human annotations required would
grow quadratically with $k$. In this work, we introduce Active Evaluation, a
framework to efficiently identify the top-ranked system by actively choosing
system pairs for comparison using dueling bandit algorithms. We perform
extensive experiments with 13 dueling bandits algorithms on 13 NLG evaluation
datasets spanning 5 tasks and show that the number of human annotations can be
reduced by 80%. To further reduce the number of human annotations, we propose
model-based dueling bandit algorithms which combine automatic evaluation
metrics with human evaluations. Specifically, we eliminate sub-optimal systems
even before the human annotation process and perform human evaluations only on
test examples where the automatic metric is highly uncertain. This reduces the
number of human annotations required further by 89%. In effect, we show that
identifying the top-ranked system requires only a few hundred human
annotations, which grow linearly with $k$. Lastly, we provide practical
recommendations and best practices to identify the top-ranked system
efficiently. Our code has been made publicly available at
https://github.com/akashkm99/duelnlg
- Abstract(参考訳): 近年の研究では、直接評価ではなく対比較を用いてnlgシステムを評価する利点が示されている。
k$ が与えられると、トップランクのシステムを特定するためのナイーブなアプローチは、すべての ${k \choose 2}$ 対のシステムから一様比較を得ることである。
しかし、必要となる人間のアノテーションの数は2倍の$k$で成長するので、これは非常に高価である。
そこで本研究では,デュエルバンドアルゴリズムを用いて,システムペアを積極的に選択することで,上位システムの効率よく識別するフレームワークであるActive Evaluationを紹介する。
5つのタスクにまたがる13のnlg評価データセット上で13のデュエルバンディットアルゴリズムを用いて広範な実験を行い、人間のアノテーションの数を80%削減できることを示した。
さらに人的アノテーションの数を減らすために,自動評価指標と人的評価値を組み合わせたモデルベースデュエルバンディットアルゴリズムを提案する。
具体的には,人間のアノテーションプロセス以前にも準最適システムを排除し,自動計量が極めて不確実な試験例に対してのみ人間による評価を行う。
これにより、人間アノテーションの数がさらに89%削減される。
その結果、上位のシステムを特定するには数百の人的アノテーションが必要であり、これは$k$で線形に成長することを示している。
最後に、最上位のシステムを効率的に識別するための実践的なレコメンデーションとベストプラクティスを提供する。
私たちのコードはhttps://github.com/akashkm99/duelnlgで公開されています。
関連論文リスト
- Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling [50.08315607506652]
信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。
実験の結果、CASFは93.18%のシステム認識精度が得られた。
論文 参考訳(メタデータ) (2024-06-12T07:44:36Z) - A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models [35.17291316942284]
本稿では,Large Language Models (LLMs) に基づくゼロショット文書ランキング手法を提案する。
我々のアプローチは、LLMベースのゼロショットランキング(ポイントワイズ、ペアワイズ、リストワイズ)の既存のプロンプトアプローチを補完する。
論文 参考訳(メタデータ) (2023-10-14T05:20:02Z) - When Are Two Lists Better than One?: Benefits and Harms in Joint
Decision-making [19.605382256630534]
我々は、アルゴリズムが$n$アイテムのセットにアクセス可能な、人間とアルゴリズムのコラボレーションのタイプを分析し、そのサブセットを人間に提示する。
このシナリオは、コンテントレコメンデーション、ルート計画、あるいはあらゆる種類のラベリングタスクをモデル化することができる。
複数のノイズモデルに対して、[2, n-1]$で$kを設定するのが最適であることを示す。
論文 参考訳(メタデータ) (2023-08-22T18:16:40Z) - Crowdsourcing subjective annotations using pairwise comparisons reduces
bias and error compared to the majority-vote method [0.0]
本稿では,ランダムな誤差と測定バイアスが,主観的構成物のクラウドソースアノテーションにどのように入るかを理解するための理論的枠組みを提案する。
次に、Eloスコアとペア比較ラベリングを組み合わせたパイプラインを提案し、両種類の測定誤差を低減するために、ユビキタスな多数投票法より優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T17:14:12Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - GHRS: Graph-based Hybrid Recommendation System with Application to Movie
Recommendation [0.0]
本稿では,ユーザのレーティングの類似性に関連するグラフベースモデルを用いたレコメンデータシステムを提案する。
オートエンコーダの特徴抽出の利点を生かして,全ての属性を組み合わせて新しい特徴を抽出する。
The experimental results on the MovieLens dataset shows that the proposed algorithm developed many existing recommendation algorithm on recommendation accuracy。
論文 参考訳(メタデータ) (2021-11-06T10:47:45Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Taking the Counterfactual Online: Efficient and Unbiased Online
Evaluation for Ranking [74.46448041224247]
データロギングのポリシーを最適化する新しいロギング・ポリシ最適化アルゴリズム(LogOpt)を導入する。
LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。
オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。
論文 参考訳(メタデータ) (2020-07-24T18:05:58Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。