論文の概要: Detection of ChatGPT Fake Science with the xFakeSci Learning Algorithm
- arxiv url: http://arxiv.org/abs/2308.11767v4
- Date: Sun, 14 Apr 2024 21:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:57:12.051465
- Title: Detection of ChatGPT Fake Science with the xFakeSci Learning Algorithm
- Title(参考訳): xFakeSci学習アルゴリズムを用いたChatGPTフェイク科学の検出
- Authors: Ahmed Abdeen Hamed, Xindong Wu,
- Abstract要約: 各種疾患, 病態に対する迅速な工学的手法を用いて, 物品の創出方法を示す。
本稿では,ChatGPT生成記事と科学者による出版物を区別できる新しい学習アルゴリズムであるxFakeSciを紹介する。
- 参考スコア(独自算出の注目度): 10.681160604641398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI tools exemplified by ChatGPT are becoming a new reality. This study is motivated by the premise that ``AI generated content may exhibit a distinctive behavior that can be separated from scientific articles''. In this study, we show how articles can be generated using means of prompt engineering for various diseases and conditions. We then show how we tested this premise in two phases and prove its validity. Subsequently, we introduce xFakeSci, a novel learning algorithm, that is capable of distinguishing ChatGPT-generated articles from publications produced by scientists. The algorithm is trained using network models driven from both sources. As for the classification step, it was performed using 300 articles per condition. The actual label steps took place against an equal mix of 50 generated articles and 50 authentic PubMed abstracts. The testing also spanned publication periods from 2010 to 2024 and encompassed research on three distinct diseases: cancer, depression, and Alzheimer's. Further, we evaluated the accuracy of the xFakeSci algorithm against some of the classical data mining algorithms (e.g., Support Vector Machines, Regression, and Naive Bayes). The xFakeSci algorithm achieved F1 scores ranging from 80% to 94%, outperforming common data mining algorithms, which scored F1 values between 38% and 52%. We attribute the noticeable difference to the introduction of calibration and a proximity distance heuristic, which underscores this promising performance. Indeed, the prediction of fake science generated by ChatGPT presents a considerable challenge. Nonetheless, the introduction of the xFakeSci algorithm is a significant step on the way to combating fake science.
- Abstract(参考訳): ChatGPTによって実証されたジェネレーティブAIツールは、新しい現実になりつつある。
本研究は,「AI生成コンテンツは,科学論文から切り離すことのできる独特な行動を示す可能性がある」という前提に動機付けられている。
本研究では, 各種疾患や病態の迅速な工学的手法を用いて, 物品の創出方法を示す。
次に、この前提を2つのフェーズでテストし、その妥当性を証明する方法を示します。
次に,新たな学習アルゴリズムであるxFakeSciを導入し,ChatGPT生成記事と科学者による出版物を識別する。
このアルゴリズムは、両方のソースから駆動されるネットワークモデルを用いて訓練される。
分類の段階では、300の項目を条件として実施した。
実際のラベルのステップは、50の生成された記事と50の真正なPubMed抽象化の混在に対して行われた。
この検査は2010年から2024年までの出版期間にわたって行われ、がん、うつ病、アルツハイマー病の3つの異なる疾患の研究も行われた。
さらに,従来のデータマイニングアルゴリズム(例えば,サポートベクトルマシン,回帰,ナイーブベイズ)と比較して,xFakeSciアルゴリズムの精度を評価した。
xFakeSciアルゴリズムは、80%から94%までのF1スコアを獲得し、一般的なデータマイニングアルゴリズムを上回り、38%から52%のF1値を得た。
我々は,キャリブレーションの導入と近接距離ヒューリスティックにより,この期待できる性能を裏付ける顕著な違いを指摘した。
実際、ChatGPTが生成した偽科学の予測には、かなりの課題がある。
それでも、xFakeSciアルゴリズムの導入は、フェイクサイエンスと戦うための重要なステップである。
関連論文リスト
- Deep Learning Detection Method for Large Language Models-Generated
Scientific Content [0.0]
大規模言語モデルは、人間が書いたものと区別できない科学的内容を生成する。
本稿では,ChatGPTを用いた科学テキスト検出手法であるAI-Catcherを提案する。
AI-Catcherの精度は平均37.4%向上した。
論文 参考訳(メタデータ) (2024-02-27T19:16:39Z) - Machine Learning Technique Based Fake News Detection [0.0]
収集したデータセットから1876年のニュースデータを利用して、偽ニュースと真ニュースを分類するモデルを訓練した。
我々の研究は3つの一般的な機械学習(確率勾配降下、ナイーブベイズ、ロジスティック回帰)と2つのDeep Learning(Long-Short Term Memory、ASGD Weight-Dropped LSTM、AWD-LSTM)アルゴリズムを実行する。
論文 参考訳(メタデータ) (2023-09-18T19:26:54Z) - Detecting Throat Cancer from Speech Signals using Machine Learning: A Scoping Literature Review [0.30723404270319693]
人工知能(AI)と機械学習(ML)は、患者の発話から喉がんを検出する可能性がある。
喉がんの症例は世界中で増加している。
音声から喉がんを検出するためのAIとMLの使用について、包括的なレビューは行われていない。
論文 参考訳(メタデータ) (2023-07-18T13:06:17Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - Development of Fake News Model using Machine Learning through Natural
Language Processing [0.7120858995754653]
機械学習アルゴリズムとフェイクニュースの識別に使用しています。
フェイクニュース検出では、単純な分類が完全に正しいわけではない。
機械学習とテキストベースの処理を統合することで、偽ニュースを検出することができる。
論文 参考訳(メタデータ) (2022-01-19T09:26:15Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。