論文の概要: Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers
through Japanese stylometric analysis
- arxiv url: http://arxiv.org/abs/2304.05534v1
- Date: Tue, 11 Apr 2023 23:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:37:20.672712
- Title: Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers
through Japanese stylometric analysis
- Title(参考訳): 図形解析によるChatGPT(-3.5, -4)生成および人文文書の識別
- Authors: Wataru Zaitsu, Mingzhe Jin
- Abstract要約: OpenAIのGPT-3.5とGPT-4を搭載したChatGPTは世界中で注目を集めている。
GPT(-3.5, -4)とヒト(4)とを比較検討した。
GPT-4 は GPT-3.5 よりも強力なが、GPT (-3.5 と -4) の分布は重なりがちである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-generative artificial intelligence (AI), including ChatGPT, equipped
with GPT-3.5 and GPT-4, from OpenAI, has attracted considerable attention
worldwide. In this study, first, we compared Japanese stylometric features
generated by GPT (-3.5 and -4) and those written by humans. In this work, we
performed multi-dimensional scaling (MDS) to confirm the classification of 216
texts into three classes (72 academic papers written by 36 single authors, 72
texts generated by GPT-3.5, and 72 texts generated by GPT-4 on the basis of the
titles of the aforementioned papers) focusing on the following stylometric
features: (1) bigrams of parts-of-speech, (2) bigram of postpositional particle
words, (3) positioning of commas, and (4) rate of function words. MDS revealed
distinct distributions at each stylometric feature of GPT (-3.5 and -4) and
human. Although GPT-4 is more powerful than GPT-3.5 because it has more
parameters, both GPT (-3.5 and -4) distributions are likely to overlap. These
results indicate that although the number of parameters may increase in the
future, AI-generated texts may not be close to that written by humans in terms
of stylometric features. Second, we verified the classification performance of
random forest (RF) for two classes (GPT and human) focusing on Japanese
stylometric features. This study revealed the high performance of RF in each
stylometric feature. Furthermore, the RF classifier focusing on the rate of
function words achieved 98.1% accuracy. The RF classifier focusing on all
stylometric features reached 100% in terms of all performance indexes
(accuracy, recall, precision, and F1 score). This study concluded that at this
stage we human discriminate ChatGPT from human limited to Japanese language.
- Abstract(参考訳): OpenAIのGPT-3.5とGPT-4を備えたChatGPTを含むテキスト生成人工知能(AI)が世界中で注目を集めている。
本研究ではまず,GPT (-3.5, -4) と人間による書式との比較を行った。
本研究は,216のテキストを3つのクラスに分類する多次元スケーリング(MDS)を行い,(1)音声部品のビッグラム,(2)仮定粒子のビッグラム,(3)コマの位置決め,(4)関数のワードのレートに着目し,GPT-3.5で作成された72のテキスト,(2)GPT-4で生成された72のテキストを抽出した。
MDSはGPT (-3.5, -4) とヒトにそれぞれ異なる分布を示した。
GPT-4 は GPT-3.5 よりも強力なが、GPT (-3.5 と -4) の分布は重なりやすい。
これらの結果から, 将来, パラメータの数が増加する可能性があるが, AI 生成したテキストは, テクスチャ的特徴の観点からは, 人間が書いたテキストに近くない可能性が示唆された。
第2に、日本語のテクスチャ的特徴に着目した2つのクラス(GPTと人間)におけるランダムフォレスト(RF)の分類性能を検証した。
本研究は, 各形状特徴量におけるRFの性能について検討した。
さらに関数語率に着目したRF分類器は98.1%の精度を達成した。
すべてのスタイル特徴に注目したrf分類器は、すべてのパフォーマンス指標(正確性、リコール、精度、f1スコア)で100%に達した。
本研究は,ヒトがChatGPTを日本語に限定した人間から識別できることを結論付けた。
関連論文リスト
- A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course [0.0]
そこで本研究では,学習者のみに対するChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。
学生の平均は91.9%(SE:0.4)で、AI応募の最高水準、即興エンジニアリングのGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = 2.482×10-10$)を示した。
盲目マーカーは、Definitely の 4-point Likert スケールで、提出書の著者を推測する作業であった。
論文 参考訳(メタデータ) (2024-03-25T17:41:02Z) - GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation [93.55550787058012]
本稿では,テキスト・ツー・3次元生成モデルのための自動的,汎用的,人為的アライメント評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,評価プロンプトを生成する。
次に,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
論文 参考訳(メタデータ) (2024-01-08T18:52:09Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Gpt-4: A Review on Advancements and Opportunities in Natural Language
Processing [0.0]
Generative Pre-trained Transformer 4 (GPT-4) は、OpenAIが開発したGPTシリーズの第4世代言語モデルである。
GPT-4は、GPT-3よりもモデルサイズが大きく(1兆ドル以上)、多言語能力、文脈理解の改善、推論能力が優れている。
GPT-4の潜在的な応用には、チャットボット、パーソナルアシスタント、言語翻訳、テキスト要約、質問応答などがある。
論文 参考訳(メタデータ) (2023-05-04T22:46:43Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。