論文の概要: Separating the Human Touch from AI-Generated Text using Higher
Criticism: An Information-Theoretic Approach
- arxiv url: http://arxiv.org/abs/2308.12747v1
- Date: Thu, 24 Aug 2023 12:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:05:44.025927
- Title: Separating the Human Touch from AI-Generated Text using Higher
Criticism: An Information-Theoretic Approach
- Title(参考訳): 高批判を用いたAIテキストからの人間の触覚の分離:情報理論的アプローチ
- Authors: Alon Kipnis
- Abstract要約: 方法は、対数パープレクティリティとクロスエントロピー率の収束によって動機付けられる。
実データを用いて本手法の有効性を実証し,その成功に影響を及ぼす要因を分析した。
- 参考スコア(独自算出の注目度): 8.285441115330944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to determine whether a given article was entirely written
by a generative language model versus an alternative situation in which the
article includes some significant edits by a different author, possibly a
human. Our process involves many perplexity tests for the origin of individual
sentences or other text atoms, combining these multiple tests using Higher
Criticism (HC). As a by-product, the method identifies parts suspected to be
edited. The method is motivated by the convergence of the log-perplexity to the
cross-entropy rate and by a statistical model for edited text saying that
sentences are mostly generated by the language model, except perhaps for a few
sentences that might have originated via a different mechanism. We demonstrate
the effectiveness of our method using real data and analyze the factors
affecting its success. This analysis raises several interesting open challenges
whose resolution may improve the method's effectiveness.
- Abstract(参考訳): 本稿では,ある記事が生成言語モデルによって完全に書かれていたのか,あるいは別の著者による重要な編集を含む別の状況なのかを判断する手法を提案する。
我々のプロセスは、個々の文や他のテキスト原子の起源に関する多くのパープレキシティテストを含み、高批判(HC)を用いたこれらの複数のテストを組み合わせる。
副産物として、編集されると思われる部品を特定する。
この方法は、クロスエントロピー率への対数パープレキシティの収束と、編集されたテキストの統計モデルによって、文は言語モデルによって生成されるが、おそらく別のメカニズムで発生したいくつかの文を除いては、ほとんどが言語モデルによって生成されると述べている。
本手法の有効性を実データを用いて実証し,その成功に影響する要因を分析した。
この分析は、解決によってメソッドの有効性が向上する可能性のある、いくつかの興味深いオープンチャレンジを引き起こす。
関連論文リスト
- Discovering influential text using convolutional neural networks [0.0]
本稿では,畳み込みニューラルネットワークを用いたテキストに対する人間の反応を予測可能な類似文句のクラスタを発見する手法を提案する。
提案手法を2つのデータセットに適用し,まず,結果の原因となるフレーズをモデルが検出する能力の直接検証を可能にする。
どちらの場合も、モデルはベンチマーク手法よりも多種多様なテキスト処理を学習し、これらのテキスト機能は、ベンチマーク手法が結果を予測する能力を定量的に満たしたり、超えたりすることができる。
論文 参考訳(メタデータ) (2024-06-14T14:41:44Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - A Deep Learning Anomaly Detection Method in Textual Data [0.45687771576879593]
本稿では,従来の機械学習アルゴリズムと組み合わせたディープラーニングとトランスフォーマーアーキテクチャを提案する。
我々は、異常を予測するために、文変換器、オート、ロジスティック回帰、距離計算など、複数の機械学習手法を使用した。
論文 参考訳(メタデータ) (2022-11-25T05:18:13Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - The Sensitivity of Word Embeddings-based Author Detection Models to
Semantic-preserving Adversarial Perturbations [3.7552532139404797]
著者分析は自然言語処理の分野において重要な課題である。
本稿では,入力の逆操作に対する既成アプローチの限界と感度について考察する。
論文 参考訳(メタデータ) (2021-02-23T19:55:45Z) - Method of the coherence evaluation of Ukrainian text [0.0]
ウクライナ語のテキストコヒーレンス測定法について分析した。
訓練と試験はウクライナのテキストのコーパスで行われている。
テキストコヒーレンス評価のための2つの典型的なタスクを実行することで、テスト手順を実行する。
論文 参考訳(メタデータ) (2020-10-31T16:48:55Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。