論文の概要: The Perils of Using Mechanical Turk to Evaluate Open-Ended Text
Generation
- arxiv url: http://arxiv.org/abs/2109.06835v1
- Date: Tue, 14 Sep 2021 17:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:38:37.040374
- Title: The Perils of Using Mechanical Turk to Evaluate Open-Ended Text
Generation
- Title(参考訳): オープンエンドテキスト生成の評価にメカニカル・タークを用いたペリル
- Authors: Marzena Karpinska, Nader Akoury, Mohit Iyyer
- Abstract要約: Amazon Mechanical Turk (AMT)の労働者は、モデル生成テキストと人間生成参照を区別できない。
AMT作業員の判断は、人為的参照とともにモデル生成出力を示すときに改善されることを示す。
- 参考スコア(独自算出の注目度): 21.474147342650028
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent text generation research has increasingly focused on open-ended
domains such as story and poetry generation. Because models built for such
tasks are difficult to evaluate automatically, most researchers in the space
justify their modeling choices by collecting crowdsourced human judgments of
text quality (e.g., Likert scores of coherence or grammaticality) from Amazon
Mechanical Turk (AMT). In this paper, we first conduct a survey of 45
open-ended text generation papers and find that the vast majority of them fail
to report crucial details about their AMT tasks, hindering reproducibility. We
then run a series of story evaluation experiments with both AMT workers and
English teachers and discover that even with strict qualification filters, AMT
workers (unlike teachers) fail to distinguish between model-generated text and
human-generated references. We show that AMT worker judgments improve when they
are shown model-generated output alongside human-generated references, which
enables the workers to better calibrate their ratings. Finally, interviews with
the English teachers provide deeper insights into the challenges of the
evaluation process, particularly when rating model-generated text.
- Abstract(参考訳): 近年のテキスト生成研究は、物語や詩の創出といったオープンエンドドメインに焦点を絞っている。
このようなタスクのために構築されたモデルは、自動評価が難しいため、ほとんどの研究者は、アマゾン・メカニカル・トルコ(AMT)から、テキスト品質のクラウドソースによる人間の判断(例えば、コヒーレンスや文法のスコア)を収集することで、モデリングの選択を正当化する。
本稿ではまず,45件のオープンエンドテキスト生成論文の調査を行い,その大多数がATTタスクに関する重要な詳細を報告できず,再現性を阻害していることを確認した。
次に、ATT労働者と英語教師の双方でストーリー評価実験を行い、厳密な資格フィルターでも(教師以外の)ATT労働者は、モデル生成テキストと人為的参照を区別できないことを発見した。
AMT作業員の判断は、人為的基準とともに、モデル生成出力を示すと改善され、作業員の格付けが向上することを示す。
最後に、英語教師とのインタビューは、特にモデル生成テキストの評価において、評価プロセスの課題について深い洞察を与える。
関連論文リスト
- Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - When Automated Assessment Meets Automated Content Generation: Examining
Text Quality in the Era of GPTs [5.952677937197871]
我々は、人間のコンテンツに基づいてトレーニングされたMLベースのスコアリングモデルが、人間が生成したコンテンツとGPTの質をどのように評価するかを経験的に評価する。
ベンチマーク分析の結果,トランスフォーマー事前学習言語モデル(PLM)は,CNN/RNNや特徴ベースML手法と比較して,人間のエッセイ品質をより正確に評価できることがわかった。
論文 参考訳(メタデータ) (2023-09-25T19:32:18Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [23.14419851509905]
言語間の時間的相互要約は、文化間のアクセシビリティと理解を改善する可能性がある。
われわれはCLCTSコーパスを初めて構築し、英語とドイツ語の歴史的文章とウィキペディアの要約を活用している。
本稿では,人間,ChatGPT,および最近の自動評価指標について報告する。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Self-critiquing models for assisting human evaluators [11.1006983438712]
我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。
トピックベースの要約タスクでは、私たちのモデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立ちます。
より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットがあるにもかかわらず、自己批判の方が優れている。
論文 参考訳(メタデータ) (2022-06-12T17:40:53Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language
Generation [42.34923623457615]
Open-Ended Language Generationデータセットのバイアスは23,679の英語テキスト生成プロンプトで構成されている。
3つの人気のある言語モデルから生成されたテキストを調べると、これらのモデルの大半は、人によるウィキペディアのテキストよりも大きな社会的バイアスを示すことが明らかになっている。
論文 参考訳(メタデータ) (2021-01-27T22:07:03Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。