論文の概要: Intrinsic Dimension Estimation for Robust Detection of AI-Generated
Texts
- arxiv url: http://arxiv.org/abs/2306.04723v2
- Date: Tue, 31 Oct 2023 19:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:28:25.466816
- Title: Intrinsic Dimension Estimation for Robust Detection of AI-Generated
Texts
- Title(参考訳): AI生成テキストのロバスト検出のための固有次元推定
- Authors: Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil
Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko and
Evgeny Burnaev
- Abstract要約: 自然言語におけるフロートテキストの平均内在次元は、アルファベットベースの言語では9ドル、中国語では7ドル前後で推移している。
この特性により、スコアベースの人工テキスト検出器を構築することができる。
- 参考スコア(独自算出の注目度): 22.852855047237153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapidly increasing quality of AI-generated content makes it difficult to
distinguish between human and AI-generated texts, which may lead to undesirable
consequences for society. Therefore, it becomes increasingly important to study
the properties of human texts that are invariant over different text domains
and varying proficiency of human writers, can be easily calculated for any
language, and can robustly separate natural and AI-generated texts regardless
of the generation model and sampling method. In this work, we propose such an
invariant for human-written texts, namely the intrinsic dimensionality of the
manifold underlying the set of embeddings for a given text sample. We show that
the average intrinsic dimensionality of fluent texts in a natural language is
hovering around the value $9$ for several alphabet-based languages and around
$7$ for Chinese, while the average intrinsic dimensionality of AI-generated
texts for each language is $\approx 1.5$ lower, with a clear statistical
separation between human-generated and AI-generated distributions. This
property allows us to build a score-based artificial text detector. The
proposed detector's accuracy is stable over text domains, generator models, and
human writer proficiency levels, outperforming SOTA detectors in model-agnostic
and cross-domain scenarios by a significant margin.
- Abstract(参考訳): AIが生成するコンテンツの品質が急速に向上したことで、人間とAIが生成するテキストの区別が難しくなる。
したがって、異なるテキスト領域にまたがって不変であり、人間の文字の習熟度が異なる人間のテキストの性質を、どんな言語でも容易に計算でき、生成モデルやサンプリング手法に関わらず、自然およびAI生成したテキストを堅牢に分離することがますます重要になっている。
本研究では, 与えられたテキストサンプルの埋め込み集合の基礎となる多様体の固有次元を, 人間が書いたテキストに対するそのような不変性を提案する。
自然言語における流用テキストの平均固有次元は、いくつかのアルファベットベースの言語で9ドル、中国語で7ドル前後と、各言語でAIが生成するテキストの平均固有次元は$$\approx 1.5$で、人間の生成とAIが生成する分布を統計的に分離している。
この特性により、スコアベースの人工テキスト検出器を構築することができる。
提案する検出器の精度は,テキスト領域,ジェネレータモデル,ヒューマンライター熟練度レベルにおいて安定であり,モデル非依存およびクロスドメインシナリオにおいてsoma検出器を有意差で上回っている。
関連論文リスト
- Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Language Model Decoding as Direct Metrics Optimization [95.78717767103458]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Is This Abstract Generated by AI? A Research for the Gap between
AI-generated Scientific Text and Human-written Scientific Text [13.438933219811188]
本稿では,AIが生み出す科学内容と人間による文章とのギャップについて検討する。
我々は、AI生成科学テキストと人文科学テキストの間に、文章スタイルのギャップがあることを発見した。
論文 参考訳(メタデータ) (2023-01-24T04:23:20Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Automating Text Naturalness Evaluation of NLG Systems [0.0]
本稿では,テキストの自然性評価を自動化する試みについて述べる。
テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。
テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
論文 参考訳(メタデータ) (2020-06-23T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。