論文の概要: The Perils of Using Mechanical Turk to Evaluate Open-Ended Text
Generation
- arxiv url: http://arxiv.org/abs/2109.06835v1
- Date: Tue, 14 Sep 2021 17:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:38:37.040374
- Title: The Perils of Using Mechanical Turk to Evaluate Open-Ended Text
Generation
- Title(参考訳): オープンエンドテキスト生成の評価にメカニカル・タークを用いたペリル
- Authors: Marzena Karpinska, Nader Akoury, Mohit Iyyer
- Abstract要約: Amazon Mechanical Turk (AMT)の労働者は、モデル生成テキストと人間生成参照を区別できない。
AMT作業員の判断は、人為的参照とともにモデル生成出力を示すときに改善されることを示す。
- 参考スコア(独自算出の注目度): 21.474147342650028
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent text generation research has increasingly focused on open-ended
domains such as story and poetry generation. Because models built for such
tasks are difficult to evaluate automatically, most researchers in the space
justify their modeling choices by collecting crowdsourced human judgments of
text quality (e.g., Likert scores of coherence or grammaticality) from Amazon
Mechanical Turk (AMT). In this paper, we first conduct a survey of 45
open-ended text generation papers and find that the vast majority of them fail
to report crucial details about their AMT tasks, hindering reproducibility. We
then run a series of story evaluation experiments with both AMT workers and
English teachers and discover that even with strict qualification filters, AMT
workers (unlike teachers) fail to distinguish between model-generated text and
human-generated references. We show that AMT worker judgments improve when they
are shown model-generated output alongside human-generated references, which
enables the workers to better calibrate their ratings. Finally, interviews with
the English teachers provide deeper insights into the challenges of the
evaluation process, particularly when rating model-generated text.
- Abstract(参考訳): 近年のテキスト生成研究は、物語や詩の創出といったオープンエンドドメインに焦点を絞っている。
このようなタスクのために構築されたモデルは、自動評価が難しいため、ほとんどの研究者は、アマゾン・メカニカル・トルコ(AMT)から、テキスト品質のクラウドソースによる人間の判断(例えば、コヒーレンスや文法のスコア)を収集することで、モデリングの選択を正当化する。
本稿ではまず,45件のオープンエンドテキスト生成論文の調査を行い,その大多数がATTタスクに関する重要な詳細を報告できず,再現性を阻害していることを確認した。
次に、ATT労働者と英語教師の双方でストーリー評価実験を行い、厳密な資格フィルターでも(教師以外の)ATT労働者は、モデル生成テキストと人為的参照を区別できないことを発見した。
AMT作業員の判断は、人為的基準とともに、モデル生成出力を示すと改善され、作業員の格付けが向上することを示す。
最後に、英語教師とのインタビューは、特にモデル生成テキストの評価において、評価プロセスの課題について深い洞察を与える。
関連論文リスト
- Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization [0.05852077003870416]
この研究は、トランスフォーマーベースのBARTモデルを利用して人間のような要約を行う。
エンコーダ・デコーダモデルの訓練および微調整において,多種多様なサンプル記事を用いて検証を行った。
微調整モデルの性能をベースライン事前訓練モデルと比較する。
BBC Newsの記事に載った実証的な結果は、人間によって書かれた金の標準要約の方が17%も現実的に一貫性があることを示している。
論文 参考訳(メタデータ) (2024-10-22T09:25:04Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。
私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。
GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文 参考訳(メタデータ) (2024-03-02T01:52:14Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - When Automated Assessment Meets Automated Content Generation: Examining
Text Quality in the Era of GPTs [5.952677937197871]
我々は、人間のコンテンツに基づいてトレーニングされたMLベースのスコアリングモデルが、人間が生成したコンテンツとGPTの質をどのように評価するかを経験的に評価する。
ベンチマーク分析の結果,トランスフォーマー事前学習言語モデル(PLM)は,CNN/RNNや特徴ベースML手法と比較して,人間のエッセイ品質をより正確に評価できることがわかった。
論文 参考訳(メタデータ) (2023-09-25T19:32:18Z) - Self-critiquing models for assisting human evaluators [11.1006983438712]
我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。
トピックベースの要約タスクでは、私たちのモデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立ちます。
より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットがあるにもかかわらず、自己批判の方が優れている。
論文 参考訳(メタデータ) (2022-06-12T17:40:53Z) - BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language
Generation [42.34923623457615]
Open-Ended Language Generationデータセットのバイアスは23,679の英語テキスト生成プロンプトで構成されている。
3つの人気のある言語モデルから生成されたテキストを調べると、これらのモデルの大半は、人によるウィキペディアのテキストよりも大きな社会的バイアスを示すことが明らかになっている。
論文 参考訳(メタデータ) (2021-01-27T22:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。