論文の概要: HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus
- arxiv url: http://arxiv.org/abs/2309.02731v4
- Date: Tue, 08 Oct 2024 08:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:10.727415
- Title: HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus
- Title(参考訳): HC3 Plus:人間のChatGPT比較コーパス
- Authors: Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu,
- Abstract要約: ChatGPTはその素晴らしいパフォーマンスのために大きな関心を集めている。
その潜在的なリスクについて懸念が高まっている。
ChatGPT生成テキストを検出するために使用される現在のデータセットは、主に質問応答タスクに焦点を当てている。
- 参考スコア(独自算出の注目度): 22.302137281411646
- License:
- Abstract: ChatGPT has garnered significant interest due to its impressive performance; however, there is growing concern about its potential risks, particularly in the detection of AI-generated content (AIGC), which is often challenging for untrained individuals to identify. Current datasets used for detecting ChatGPT-generated text primarily focus on question-answering tasks, often overlooking tasks with semantic-invariant properties, such as summarization, translation, and paraphrasing. In this paper, we demonstrate that detecting model-generated text in semantic-invariant tasks is more challenging. To address this gap, we introduce a more extensive and comprehensive dataset that incorporates a wider range of tasks than previous work, including those with semantic-invariant properties. In addition, instruction fine-tuning has demonstrated superior performance across various tasks. In this paper, we explore the use of instruction fine-tuning models for detecting text generated by ChatGPT.
- Abstract(参考訳): ChatGPTはその優れたパフォーマンスのために大きな関心を集めているが、その潜在的なリスク、特に訓練を受けていない個人が識別することが困難なAIGC(AIGC)の検出に関して懸念が高まっている。
ChatGPT生成テキストを検出するために使われる現在のデータセットは、主に質問応答タスクに焦点を当てており、多くの場合、要約、翻訳、パラフレージングのような意味的不変性のあるタスクを見渡す。
本稿では,意味不変タスクにおけるモデル生成テキストの検出がより困難であることを示す。
このギャップに対処するため、より広範囲で包括的なデータセットを導入し、セマンティック不変性を含む以前の作業よりも幅広いタスクを組み込んだ。
さらに、命令の微調整は様々なタスクにまたがって優れた性能を示している。
本稿では,ChatGPTが生成したテキストを検出するための命令微調整モデルについて検討する。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method [4.802604527842989]
GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
論文 参考訳(メタデータ) (2024-03-12T05:15:21Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Paraphrase Detection: Human vs. Machine Content [3.8768839735240737]
人間が書いたパラフレーズは、難易度、多様性、類似性の点で機械生成のパラフレーズを超えている。
トランスフォーマーは、意味的に多様なコーパスに優れたTF-IDFを持つデータセット間で最も効果的な方法として登場した。
論文 参考訳(メタデータ) (2023-03-24T13:25:46Z) - Exploring the Feasibility of ChatGPT for Event Extraction [31.175880361951172]
イベント抽出は、自然言語処理における基本的なタスクであり、テキストで言及されたイベントに関する情報を特定し、抽出する。
ChatGPTは、タスク固有のデータセットや微調整を必要とせずに、単純なプロンプトで言語タスクを解決する機会を提供する。
また,ChatGPTは,脳波や複雑なシナリオにおけるタスク固有モデルの性能の51.04%に過ぎなかった。
論文 参考訳(メタデータ) (2023-03-07T12:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。