論文の概要: GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation
- arxiv url: http://arxiv.org/abs/2101.06561v1
- Date: Sun, 17 Jan 2021 00:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 20:21:55.407430
- Title: GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation
- Title(参考訳): GENIE:テキスト生成の人間による評価のためのリーダーボード
- Authors: Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie,
Jungo Kasai, Yejin Choi, Noah A. Smith, Daniel S. Weld
- Abstract要約: リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
- 参考スコア(独自算出の注目度): 83.10599735938618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leaderboards have eased model development for many NLP datasets by
standardizing their evaluation and delegating it to an independent external
repository. Their adoption, however, is so far limited to tasks that can be
reliably evaluated in an automatic manner. This work introduces GENIE, an
extensible human evaluation leaderboard, which brings the ease of leaderboards
to text generation tasks. GENIE automatically posts leaderboard submissions to
crowdsourcing platforms asking human annotators to evaluate them on various
axes (e.g., correctness, conciseness, fluency) and compares their answers to
various automatic metrics. We introduce several datasets in English to GENIE,
representing four core challenges in text generation: machine translation,
summarization, commonsense reasoning, and machine comprehension. We provide
formal granular evaluation metrics and identify areas for future research. We
make GENIE publicly available and hope that it will spur progress in language
generation models as well as their automatic and manual evaluation.
- Abstract(参考訳): リーダボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にする。
しかし、それらの採用は、自動的な方法で確実に評価できるタスクに限定されている。
この研究は、テキスト生成タスクにリーダーボードの容易さをもたらす、拡張可能なヒューマン評価リーダーボードであるGENIEを導入している。
GENIEはリーダーボードをクラウドソーシングプラットフォームに自動的に投稿し、人間のアノテータに様々な軸(例えば、正確性、簡潔性、流布性)で評価するよう求め、答えを様々な自動メトリクスと比較する。
本稿では,機械翻訳,要約,コモンセンス推論,機械理解という,テキスト生成における4つの課題について述べる。
我々は,形式的な粒度評価指標を提供し,今後の研究分野を特定する。
私たちはgenieを一般公開し、言語生成モデルと自動および手動による評価の進展を促すことを期待しています。
関連論文リスト
- From Matching to Generation: A Survey on Generative Information Retrieval [21.56093567336119]
生成情報検索(GenIR)は新たなパラダイムとして登場し,近年注目を集めている。
本稿では,GenIRの最新研究動向を体系的にレビューすることを目的とする。
論文 参考訳(メタデータ) (2024-04-23T09:05:37Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - VisIT-Bench: A Benchmark for Vision-Language Instruction Following
Inspired by Real-World Use [49.574651930395305]
VisIT-Benchは、命令追従型視覚言語モデルの評価のためのベンチマークである。
提案データセットは592個のテストクエリからなり,それぞれに人手による指示条件付きキャプションを付与した。
人的評価と自動評価の両方を用いて,モデルと参照間の品質ギャップを定量化する。
論文 参考訳(メタデータ) (2023-08-12T15:27:51Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language
Generation [42.34923623457615]
Open-Ended Language Generationデータセットのバイアスは23,679の英語テキスト生成プロンプトで構成されている。
3つの人気のある言語モデルから生成されたテキストを調べると、これらのモデルの大半は、人によるウィキペディアのテキストよりも大きな社会的バイアスを示すことが明らかになっている。
論文 参考訳(メタデータ) (2021-01-27T22:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。