論文の概要: When Automated Assessment Meets Automated Content Generation: Examining
Text Quality in the Era of GPTs
- arxiv url: http://arxiv.org/abs/2309.14488v1
- Date: Mon, 25 Sep 2023 19:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 16:06:34.737234
- Title: When Automated Assessment Meets Automated Content Generation: Examining
Text Quality in the Era of GPTs
- Title(参考訳): 自動評価が自動コンテンツ生成を満たすとき: gpt時代のテキスト品質の検討
- Authors: Marialena Bevilacqua, Kezia Oketch, Ruiyang Qin, Will Stamey, Xinyuan
Zhang, Yi Gan, Kai Yang, Ahmed Abbasi
- Abstract要約: 我々は、人間のコンテンツに基づいてトレーニングされたMLベースのスコアリングモデルが、人間が生成したコンテンツとGPTの質をどのように評価するかを経験的に評価する。
ベンチマーク分析の結果,トランスフォーマー事前学習言語モデル(PLM)は,CNN/RNNや特徴ベースML手法と比較して,人間のエッセイ品質をより正確に評価できることがわかった。
- 参考スコア(独自算出の注目度): 5.952677937197871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of machine learning (ML) models to assess and score textual data has
become increasingly pervasive in an array of contexts including natural
language processing, information retrieval, search and recommendation, and
credibility assessment of online content. A significant disruption at the
intersection of ML and text are text-generating large-language models such as
generative pre-trained transformers (GPTs). We empirically assess the
differences in how ML-based scoring models trained on human content assess the
quality of content generated by humans versus GPTs. To do so, we propose an
analysis framework that encompasses essay scoring ML-models, human and
ML-generated essays, and a statistical model that parsimoniously considers the
impact of type of respondent, prompt genre, and the ML model used for
assessment model. A rich testbed is utilized that encompasses 18,460
human-generated and GPT-based essays. Results of our benchmark analysis reveal
that transformer pretrained language models (PLMs) more accurately score human
essay quality as compared to CNN/RNN and feature-based ML methods.
Interestingly, we find that the transformer PLMs tend to score GPT-generated
text 10-15\% higher on average, relative to human-authored documents.
Conversely, traditional deep learning and feature-based ML models score human
text considerably higher. Further analysis reveals that although the
transformer PLMs are exclusively fine-tuned on human text, they more
prominently attend to certain tokens appearing only in GPT-generated text,
possibly due to familiarity/overlap in pre-training. Our framework and results
have implications for text classification settings where automated scoring of
text is likely to be disrupted by generative AI.
- Abstract(参考訳): 自然言語処理や情報検索,検索とレコメンデーション,オンラインコンテンツの信頼性評価など,さまざまなコンテキストにおいて,テキストデータの評価と評価に機械学習(ML)モデルが普及している。
mlとテキストの交点における大きな混乱は、ジェネレーティブ事前学習トランスフォーマー(gpts)のようなテキスト生成大言語モデルである。
人間のコンテンツにトレーニングされたmlベースのスコアリングモデルが、ヒトとgptによって生成されたコンテンツの品質を評価する方法の違いを実証的に評価する。
そこで本研究では,mlモデル評価のためのエッセイ,人間およびml生成エッセイ,および評価モデルに使用される応答者の種類,プロンプトジャンル,mlモデルの影響を概ね考慮した統計モデルを含む分析フレームワークを提案する。
18,460個の人間生成エッセイとgptに基づくエッセイを含む豊かなテストベッドを利用する。
ベンチマーク分析の結果,トランスフォーマー事前学習言語モデル(PLM)は,CNN/RNNや特徴ベースML手法と比較して,人間のエッセイ品質をより正確に評価できることがわかった。
興味深いことに、トランスフォーマー PLM は、人為的な文書に比べて、平均で10~15倍高い GPT 生成テキストをスコアする傾向にある。
逆に、従来のディープラーニングと機能ベースのMLモデルは、人間のテキストをかなり高く評価する。
さらなる分析により、トランスフォーマーplmは人間のテキストでのみ微調整されているものの、gptで生成されたテキストにのみ現れる特定のトークンに、より顕著に対応することが判明した。
我々のフレームワークと結果は、テキストの自動スコアリングが生成AIによって破壊されがちなテキスト分類設定に影響を及ぼす。
関連論文リスト
- Distinguishing Chatbot from Human [1.1249583407496218]
我々は,75万以上の人文文からなる新しいデータセットを開発した。
このデータセットに基づいて、テキストの起源を決定するために機械学習(ML)技術を適用する。
提案手法は高い分類精度を提供し,テキスト解析に有用なツールである。
論文 参考訳(メタデータ) (2024-08-03T13:18:04Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Automating Text Naturalness Evaluation of NLG Systems [0.0]
本稿では,テキストの自然性評価を自動化する試みについて述べる。
テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。
テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
論文 参考訳(メタデータ) (2020-06-23T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。