論文の概要: HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus
- arxiv url: http://arxiv.org/abs/2309.02731v1
- Date: Wed, 6 Sep 2023 05:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:46:18.444791
- Title: HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus
- Title(参考訳): HC3 Plus:人間のChatGPT比較コーパス
- Authors: Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu
- Abstract要約: より広範囲で包括的なデータセットを導入し、以前の作業よりも多くのタスクのタイプを検討します。
我々はさらに微調整Tkインストラクションを指導し、より強力な検出システムを構築した。
実験の結果,提案検出器は従来のRoBERTa検出器よりも優れていた。
- 参考スコア(独自算出の注目度): 23.926757750446665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ChatGPT has gained significant interest due to its impressive performance,
but people are increasingly concerned about its potential risks, particularly
around the detection of AI-generated content (AIGC), which is often difficult
for untrained humans to identify. Current datasets utilized for detecting
ChatGPT-generated text primarily center around question-answering, yet they
tend to disregard tasks that possess semantic-invariant properties, such as
summarization, translation, and paraphrasing. Our primary studies demonstrate
that detecting model-generated text on semantic-invariant tasks is more
difficult. To fill this gap, we introduce a more extensive and comprehensive
dataset that considers more types of tasks than previous work, including
semantic-invariant tasks. In addition, the model after a large number of task
instruction fine-tuning shows a strong powerful performance. Owing to its
previous success, we further instruct fine-tuning Tk-instruct and built a more
powerful detection system. Experimental results show that our proposed detector
outperforms the previous state-of-the-art RoBERTa-based detector.
- Abstract(参考訳): ChatGPTはその優れたパフォーマンスのために大きな関心を集めているが、その潜在的なリスク、特に訓練されていない人間が識別することが困難なAIGC(AIGC)の発見について、人々はますます懸念している。
現在のデータセットは、ChatGPT生成したテキストを主に質問回答を中心に検出するために使用されているが、要約、翻訳、パラフレーズ化といった意味不変性を持つタスクを無視する傾向にある。
本研究は,意味不変タスクにおけるモデル生成テキストの検出が困難であることを示す。
このギャップを埋めるため、私たちは、セマンティック不変タスクを含む、以前の作業よりも多くの種類のタスクを検討する、より広範囲で包括的なデータセットを導入します。
さらに、多数のタスク命令の微調整後のモデルは、強力なパフォーマンスを示している。
従来の成功により,tk-instructの微調整をさらに指導し,より強力な検出システムを構築した。
実験の結果,提案検出器は従来のRoBERTa検出器よりも優れていた。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method [4.802604527842989]
GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
論文 参考訳(メタデータ) (2024-03-12T05:15:21Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Paraphrase Detection: Human vs. Machine Content [3.8768839735240737]
人間が書いたパラフレーズは、難易度、多様性、類似性の点で機械生成のパラフレーズを超えている。
トランスフォーマーは、意味的に多様なコーパスに優れたTF-IDFを持つデータセット間で最も効果的な方法として登場した。
論文 参考訳(メタデータ) (2023-03-24T13:25:46Z) - Exploring the Feasibility of ChatGPT for Event Extraction [31.175880361951172]
イベント抽出は、自然言語処理における基本的なタスクであり、テキストで言及されたイベントに関する情報を特定し、抽出する。
ChatGPTは、タスク固有のデータセットや微調整を必要とせずに、単純なプロンプトで言語タスクを解決する機会を提供する。
また,ChatGPTは,脳波や複雑なシナリオにおけるタスク固有モデルの性能の51.04%に過ぎなかった。
論文 参考訳(メタデータ) (2023-03-07T12:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。