論文の概要: ArguGPT: evaluating, understanding and identifying argumentative essays
generated by GPT models
- arxiv url: http://arxiv.org/abs/2304.07666v2
- Date: Sat, 23 Sep 2023 14:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 03:00:52.177972
- Title: ArguGPT: evaluating, understanding and identifying argumentative essays
generated by GPT models
- Title(参考訳): ArguGPT:GPTモデルによる議論的エッセイの評価、理解、識別
- Authors: Yikang Liu, Ziyin Zhang, Wanyang Zhang, Shisen Yue, Xiaojing Zhao,
Xinyuan Cheng, Yiwen Zhang, Hai Hu
- Abstract要約: まず、7つのGPTモデルによって生成された4,038の議論的エッセイのバランスの取れたコーパスであるArguGPTを提示する。
そして、機械エッセイと人間のエッセイを区別するために英語のインストラクターを雇います。
その結果、まず機械によるエッセイに触れると、インストラクターは61%の精度しか検出できないことがわかった。
- 参考スコア(独自算出の注目度): 9.483206389157509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI generated content (AIGC) presents considerable challenge to educators
around the world. Instructors need to be able to detect such text generated by
large language models, either with the naked eye or with the help of some
tools. There is also growing need to understand the lexical, syntactic and
stylistic features of AIGC. To address these challenges in English language
teaching, we first present ArguGPT, a balanced corpus of 4,038 argumentative
essays generated by 7 GPT models in response to essay prompts from three
sources: (1) in-class or homework exercises, (2) TOEFL and (3) GRE writing
tasks. Machine-generated texts are paired with roughly equal number of
human-written essays with three score levels matched in essay prompts. We then
hire English instructors to distinguish machine essays from human ones. Results
show that when first exposed to machine-generated essays, the instructors only
have an accuracy of 61% in detecting them. But the number rises to 67% after
one round of minimal self-training. Next, we perform linguistic analyses of
these essays, which show that machines produce sentences with more complex
syntactic structures while human essays tend to be lexically more complex.
Finally, we test existing AIGC detectors and build our own detectors using SVMs
and RoBERTa. Results suggest that a RoBERTa fine-tuned with the training set of
ArguGPT achieves above 90% accuracy in both essay- and sentence-level
classification. To the best of our knowledge, this is the first comprehensive
analysis of argumentative essays produced by generative large language models.
Machine-authored essays in ArguGPT and our models will be made publicly
available at https://github.com/huhailinguist/ArguGPT
- Abstract(参考訳): AI生成コンテンツ(AIGC)は、世界中の教育者に対して大きな課題を提示している。
インストラクターは、裸眼で、あるいはいくつかのツールの助けを借りて、大きな言語モデルによって生成されたテキストを検出できる必要があります。
AIGCの語彙的、構文的、スタイル的特徴を理解する必要も増えている。
英語教育におけるこれらの課題に対処するため,本研究では,(1)授業中あるいは宿題課題,(2)toefl,(3)grライティング課題の3つの資料から,7つのgptモデルで生成した4,038個の議論的エッセイのバランスコーパスであるargugptを提案する。
機械が生成するテキストは、ほぼ同じ数の人間の書いたエッセイと、3つのスコアレベルがエッセイプロンプトで一致している。
そして、機械エッセイと人間のエッセイを区別するために英語のインストラクターを雇います。
その結果, 機械生成エッセイに初めて曝露した場合, インストラクターは61%の精度しか検出できないことがわかった。
しかし、この数字は1回の最小限の自己訓練の後に67%まで上昇する。
次に、これらのエッセイの言語分析を行い、機械がより複雑な構文構造を持つ文を生成する一方で、人間のエッセイは語彙的により複雑であることを示す。
最後に、既存のAIGC検出器を試験し、SVMとRoBERTaを用いて独自の検出器を構築する。
その結果,ArguGPTのトレーニングセットを微調整したRoBERTaは,エッセイレベルと文レベルの両方で90%以上の精度を達成できた。
我々の知る限りでは、これは生成的大言語モデルによって生成された議論的エッセイの包括的分析としては初めてのものである。
ArguGPTと私たちのモデルは、https://github.com/huhailinguist/ArguGPTで公開されます。
関連論文リスト
- A School Student Essay Corpus for Analyzing Interactions of Argumentative Structure and Quality [12.187586364960758]
我々は,2つの年齢集団の学生のエッセイ1,320件のドイツ語コーパスを提示する。
各エッセイは、複数のレベルの粒度の議論的構造と品質のために手動で注釈付けされている。
議論マイニングとエッセイスコアリングのためのベースラインアプローチを提案し,両タスク間の相互作用を分析する。
論文 参考訳(メタデータ) (2024-04-03T07:31:53Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - How Large Language Models are Transforming Machine-Paraphrased
Plagiarism [3.8768839735240737]
本研究は, arXiv, 学生論文, ウィキペディアの科学論文において, 機械パラフレーズ生成のための T5 と GPT-3 について検討する。
6つの自動解法と1つの商用プラジャリズム検出ソフトウェアの検出性能を評価した。
人間の専門家は、GPT-3が生成したパラフレーズの質を原文よりも高く評価する。
論文 参考訳(メタデータ) (2022-10-07T14:08:57Z) - Automatic Summarization of Russian Texts: Comparison of Extractive and
Abstractive Methods [0.0]
ロシア語の議論文生成の鍵となる問題は、注釈付き議論コーパスの欠如である。
本稿では,Argumentative Microtext, Persuasive Essays および UKP Sentential corpora の翻訳版を詳細な RuBERT モデルに適用する。
その結果,従来の ruGPT-3 モデルと比較して,引数生成の精度は 20 ポイント以上向上した。
論文 参考訳(メタデータ) (2022-06-18T17:28:04Z) - Argumentative Text Generation in Economic Domain [0.11470070927586015]
ロシア語の議論文生成の鍵となる問題は、注釈付き議論コーパスの欠如である。
本稿では,Argumentative Microtext, Persuasive Essays および UKP Sentential corpora の翻訳版を詳細な RuBERT モデルに適用する。
その結果,従来の ruGPT-3 モデルと比較して,引数生成の精度は 20 ポイント以上向上した。
論文 参考訳(メタデータ) (2022-06-18T17:22:06Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。