Fugu-MT 論文翻訳(概要): Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts

論文の概要: Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts

arxiv url: http://arxiv.org/abs/2306.04723v2
Date: Tue, 31 Oct 2023 19:25:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 17:28:25.466816
Title: Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts
Title（参考訳）: AI生成テキストのロバスト検出のための固有次元推定
Authors: Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko and Evgeny Burnaev
Abstract要約: 自然言語におけるフロートテキストの平均内在次元は、アルファベットベースの言語では9ドル、中国語では7ドル前後で推移している。この特性により、スコアベースの人工テキスト検出器を構築することができる。
参考スコア（独自算出の注目度）: 22.852855047237153
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rapidly increasing quality of AI-generated content makes it difficult to distinguish between human and AI-generated texts, which may lead to undesirable consequences for society. Therefore, it becomes increasingly important to study the properties of human texts that are invariant over different text domains and varying proficiency of human writers, can be easily calculated for any language, and can robustly separate natural and AI-generated texts regardless of the generation model and sampling method. In this work, we propose such an invariant for human-written texts, namely the intrinsic dimensionality of the manifold underlying the set of embeddings for a given text sample. We show that the average intrinsic dimensionality of fluent texts in a natural language is hovering around the value $9$ for several alphabet-based languages and around $7$ for Chinese, while the average intrinsic dimensionality of AI-generated texts for each language is $\approx 1.5$ lower, with a clear statistical separation between human-generated and AI-generated distributions. This property allows us to build a score-based artificial text detector. The proposed detector's accuracy is stable over text domains, generator models, and human writer proficiency levels, outperforming SOTA detectors in model-agnostic and cross-domain scenarios by a significant margin.
Abstract（参考訳）: AIが生成するコンテンツの品質が急速に向上したことで、人間とAIが生成するテキストの区別が難しくなる。したがって、異なるテキスト領域にまたがって不変であり、人間の文字の習熟度が異なる人間のテキストの性質を、どんな言語でも容易に計算でき、生成モデルやサンプリング手法に関わらず、自然およびAI生成したテキストを堅牢に分離することがますます重要になっている。本研究では, 与えられたテキストサンプルの埋め込み集合の基礎となる多様体の固有次元を, 人間が書いたテキストに対するそのような不変性を提案する。自然言語における流用テキストの平均固有次元は、いくつかのアルファベットベースの言語で9ドル、中国語で7ドル前後と、各言語でAIが生成するテキストの平均固有次元は$$\approx 1.5$で、人間の生成とAIが生成する分布を統計的に分離している。この特性により、スコアベースの人工テキスト検出器を構築することができる。提案する検出器の精度は,テキスト領域,ジェネレータモデル,ヒューマンライター熟練度レベルにおいて安定であり,モデル非依存およびクロスドメインシナリオにおいてsoma検出器を有意差で上回っている。

関連論文リスト

DependencyAI: Detecting AI Generated Text through Dependency Parsing [10.075606234222963]
本稿では,AI生成テキストを検出するための簡易かつ解釈可能なアプローチであるDependencyAIを紹介する。本手法は,モノリンガル,マルチジェネレータ,多言語設定間での競合性能を実現する。
論文参考訳（メタデータ） (2026-02-17T11:42:28Z)
On the Effectiveness of LLM-Specific Fine-Tuning for Detecting AI-Generated Text [1.8428580623654867]
本稿では,大規模コーパスと新たな学習戦略に基づくAIによるテキスト検出手法を提案する。我々は,複数のジャンルにまたがる1ビリオン・トーケン・コーパスと,AI生成テキストの1.9ビリオン・トーケン・コーパスを紹介する。我々の最高の微調整検出器は99.6%のトークンレベルの精度を達成し、既存のオープンソースベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2026-01-27T19:22:38Z)
Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation [3.088244520495001]
人間とAI生成テキスト間の遷移を検出するための文レベルのシーケンスラベリングモデルの提案我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。評価は、協力的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。
論文参考訳（メタデータ） (2025-09-22T14:22:55Z)
Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models [0.0]
人書きテキストや機械生成テキストを特徴付けるために,依存長や感情といった言語的特徴を計算した。統計的分析により,人文テキストはより単純な構文構造とより多様な意味的内容を示す傾向があることが明らかとなった。人間と機械の両方のテキストは、ドメイン間のスタイリスティックな多様性を示しており、人間は我々の特徴により大きなバリエーションを示している。
論文参考訳（メタデータ） (2025-07-18T02:46:55Z)
Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [60.09665704993751]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文参考訳（メタデータ） (2025-02-06T21:58:48Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Decoding AI and Human Authorship: Nuances Revealed Through NLP and Statistical Analysis [0.0]
本研究では,AIが生成したテキストと人間が作成したテキストの微妙な相違について検討する。本研究は,人文・AI生成テキストに固有の言語特性,創造性パターン,潜在的なバイアスについて検討した。
論文参考訳（メタデータ） (2024-07-15T18:09:03Z)
Differentiating between human-written and AI-generated texts using linguistic features automatically extracted from an online computational tool [0.0]
本研究の目的は,AIが人間の文章をエミュレートする能力を評価することにある。人間の発話を模倣したAI生成テキストが現れるにもかかわらず、結果は複数の言語的特徴に有意な差が認められた。
論文参考訳（メタデータ） (2024-07-04T05:37:09Z)
Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文参考訳（メタデータ） (2024-05-30T17:38:44Z)
Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (2023-10-23T18:11:32Z)
Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文参考訳（メタデータ） (2023-10-02T09:35:27Z)
The Imitation Game: Detecting Human and AI-Generated Texts in the Era of ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。テキストを分類するために、いくつかの機械学習モデルを使用します。結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文参考訳（メタデータ） (2023-07-22T21:00:14Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。