論文の概要: Spot the Bot: Distinguishing Human-Written and Bot-Generated Texts Using
Clustering and Information Theory Techniques
- arxiv url: http://arxiv.org/abs/2311.11441v1
- Date: Sun, 19 Nov 2023 22:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:17:51.776287
- Title: Spot the Bot: Distinguishing Human-Written and Bot-Generated Texts Using
Clustering and Information Theory Techniques
- Title(参考訳): spot the bot:クラスタリングと情報理論技術を用いた人文とボットによるテキストの識別
- Authors: Vasilii Gromov and Quynh Nhu Dang
- Abstract要約: 教師なし学習手法に基づくボット識別アルゴリズムを提案する。
文学作品がより複雑であるのに対して、生成されたテキストはよりカオス的である傾向にある。
また、人間のテキストのクラスタリングは、ボット生成テキストのよりコンパクトでより分離されたクラスタと比較してファジエクラスタをもたらすことを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of generative models like GPT-3, it is increasingly more
challenging to differentiate generated texts from human-written ones. There is
a large number of studies that have demonstrated good results in bot
identification. However, the majority of such works depend on supervised
learning methods that require labelled data and/or prior knowledge about the
bot-model architecture. In this work, we propose a bot identification algorithm
that is based on unsupervised learning techniques and does not depend on a
large amount of labelled data. By combining findings in semantic analysis by
clustering (crisp and fuzzy) and information techniques, we construct a robust
model that detects a generated text for different types of bot. We find that
the generated texts tend to be more chaotic while literary works are more
complex. We also demonstrate that the clustering of human texts results in
fuzzier clusters in comparison to the more compact and well-separated clusters
of bot-generated texts.
- Abstract(参考訳): GPT-3のような生成モデルの開発により、生成したテキストと人間が書いたテキストを区別することがますます困難になっている。
ボット識別に優れた結果を示した研究は数多く存在する。
しかし、これらの研究の大部分は、ラベル付きデータやボットモデルアーキテクチャに関する事前知識を必要とする教師あり学習手法に依存している。
本研究では,教師なし学習手法に基づいて,大量のラベル付きデータに依存しないボット識別アルゴリズムを提案する。
クラスタリング (crisp と fuzzy) による意味解析の知見と情報技術を組み合わせることで,さまざまな種類のボットに対して生成されたテキストを検出する頑健なモデルを構築する。
生成したテキストはよりカオス的になりがちだが、文学作品はより複雑である。
また、人間のテキストのクラスタリングは、ボット生成テキストのよりコンパクトでより分離されたクラスタと比較してファジエクラスタをもたらすことを示した。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Distinguishing Chatbot from Human [1.1249583407496218]
我々は,75万以上の人文文からなる新しいデータセットを開発した。
このデータセットに基づいて、テキストの起源を決定するために機械学習(ML)技術を適用する。
提案手法は高い分類精度を提供し,テキスト解析に有用なツールである。
論文 参考訳(メタデータ) (2024-08-03T13:18:04Z) - Spot the bot: Coarse-Grained Partition of Semantic Paths for Bots and
Humans [55.2480439325792]
本稿では,人書きテキストとボット生成テキストのセマンティックパスの粗粒度分割構造の比較に焦点をあてる。
意味構造が言語によって異なる可能性があるため、ロシア語、英語、ドイツ語、ベトナム語を調査する。
論文 参考訳(メタデータ) (2024-02-27T10:38:37Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - A Deep Learning Anomaly Detection Method in Textual Data [0.45687771576879593]
本稿では,従来の機械学習アルゴリズムと組み合わせたディープラーニングとトランスフォーマーアーキテクチャを提案する。
我々は、異常を予測するために、文変換器、オート、ロジスティック回帰、距離計算など、複数の機械学習手法を使用した。
論文 参考訳(メタデータ) (2022-11-25T05:18:13Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Detecting Bot-Generated Text by Characterizing Linguistic Accommodation
in Human-Bot Interactions [9.578008322407928]
言語生成モデルの民主化は、悪質な活動のために、人間のようなテキストを大規模に生成しやすくする。
人々がボットとどのように相互作用するかを理解し、ボット生成テキストを検出する方法を開発することが不可欠である。
本稿では,ボットが生成するテキスト検出手法が,人々の反応に関する情報を使用する場合,データセットやモデル間でより堅牢であることを示す。
論文 参考訳(メタデータ) (2021-06-02T14:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。