論文の概要: Intrinsic Dimension Estimation for Robust Detection of AI-Generated
Texts
- arxiv url: http://arxiv.org/abs/2306.04723v1
- Date: Wed, 7 Jun 2023 18:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:03:36.149868
- Title: Intrinsic Dimension Estimation for Robust Detection of AI-Generated
Texts
- Title(参考訳): AI生成テキストのロバスト検出のための固有次元推定
- Authors: Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil
Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko and
Evgeny Burnaev
- Abstract要約: 本研究では,人間のテキストの不変性,すなわち与えられたテキストサンプルの埋め込みの集合の根底にある多様体の内在的次元性を提案する。
自然言語におけるフロートテキストの平均内在次元は、アルファベットベースの言語では9ドル、中国語では7ドル前後で推移している。
言語ごとのAI生成テキストの平均内在次元は$approx 1.5$で、人間生成とAI生成の分布を明確に分離する。
- 参考スコア(独自算出の注目度): 10.00176964652466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapidly increasing quality of AI-generated content makes it difficult to
distinguish between human and AI-generated texts, which may lead to undesirable
consequences for society. Therefore, it becomes increasingly important to study
the properties of human texts that are invariant over text domains and various
proficiency of human writers, can be easily calculated for any language, and
can robustly separate natural and AI-generated texts regardless of the
generation model and sampling method. In this work, we propose such an
invariant of human texts, namely the intrinsic dimensionality of the manifold
underlying the set of embeddings of a given text sample. We show that the
average intrinsic dimensionality of fluent texts in natural language is
hovering around the value $9$ for several alphabet-based languages and around
$7$ for Chinese, while the average intrinsic dimensionality of AI-generated
texts for each language is $\approx 1.5$ lower, with a clear statistical
separation between human-generated and AI-generated distributions. This
property allows us to build a score-based artificial text detector. The
proposed detector's accuracy is stable over text domains, generator models, and
human writer proficiency levels, outperforming SOTA detectors in model-agnostic
and cross-domain scenarios by a significant margin.
- Abstract(参考訳): AIが生成するコンテンツの品質が急速に向上したことで、人間とAIが生成するテキストの区別が難しくなる。
そのため, テキスト領域に不変な人文の性質や, 多様な人文の習熟度などを調べることがますます重要になり, どのような言語でも容易に計算でき, 生成モデルやサンプリング手法によらず, 自然テキストとAI生成テキストを頑健に分離することができる。
本研究では,人間のテキストの不変性,すなわち与えられたテキストサンプルの埋め込みの集合の根底にある多様体の内在的次元性を提案する。
自然言語における流用テキストの平均固有次元は、いくつかのアルファベットベースの言語で9ドル、中国語で7ドル前後で推移しているのに対し、各言語でAI生成テキストが生成する固有次元の平均固有次元は、人為的な分布とAI生成された分布とを明確に区別して$\approx 1.5$以下である。
この特性により、スコアベースの人工テキスト検出器を構築することができる。
提案する検出器の精度は,テキスト領域,ジェネレータモデル,ヒューマンライター熟練度レベルにおいて安定であり,モデル非依存およびクロスドメインシナリオにおいてsoma検出器を有意差で上回っている。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Decoding AI and Human Authorship: Nuances Revealed Through NLP and Statistical Analysis [0.0]
本研究では,AIが生成したテキストと人間が作成したテキストの微妙な相違について検討する。
本研究は,人文・AI生成テキストに固有の言語特性,創造性パターン,潜在的なバイアスについて検討した。
論文 参考訳(メタデータ) (2024-07-15T18:09:03Z) - Differentiating between human-written and AI-generated texts using linguistic features automatically extracted from an online computational tool [0.0]
本研究の目的は,AIが人間の文章をエミュレートする能力を評価することにある。
人間の発話を模倣したAI生成テキストが現れるにもかかわらず、結果は複数の言語的特徴に有意な差が認められた。
論文 参考訳(メタデータ) (2024-07-04T05:37:09Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。