論文の概要: Separating the Human Touch from AI-Generated Text using Higher
Criticism: An Information-Theoretic Approach
- arxiv url: http://arxiv.org/abs/2308.12747v1
- Date: Thu, 24 Aug 2023 12:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:05:44.025927
- Title: Separating the Human Touch from AI-Generated Text using Higher
Criticism: An Information-Theoretic Approach
- Title(参考訳): 高批判を用いたAIテキストからの人間の触覚の分離:情報理論的アプローチ
- Authors: Alon Kipnis
- Abstract要約: 方法は、対数パープレクティリティとクロスエントロピー率の収束によって動機付けられる。
実データを用いて本手法の有効性を実証し,その成功に影響を及ぼす要因を分析した。
- 参考スコア(独自算出の注目度): 8.285441115330944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to determine whether a given article was entirely written
by a generative language model versus an alternative situation in which the
article includes some significant edits by a different author, possibly a
human. Our process involves many perplexity tests for the origin of individual
sentences or other text atoms, combining these multiple tests using Higher
Criticism (HC). As a by-product, the method identifies parts suspected to be
edited. The method is motivated by the convergence of the log-perplexity to the
cross-entropy rate and by a statistical model for edited text saying that
sentences are mostly generated by the language model, except perhaps for a few
sentences that might have originated via a different mechanism. We demonstrate
the effectiveness of our method using real data and analyze the factors
affecting its success. This analysis raises several interesting open challenges
whose resolution may improve the method's effectiveness.
- Abstract(参考訳): 本稿では,ある記事が生成言語モデルによって完全に書かれていたのか,あるいは別の著者による重要な編集を含む別の状況なのかを判断する手法を提案する。
我々のプロセスは、個々の文や他のテキスト原子の起源に関する多くのパープレキシティテストを含み、高批判(HC)を用いたこれらの複数のテストを組み合わせる。
副産物として、編集されると思われる部品を特定する。
この方法は、クロスエントロピー率への対数パープレキシティの収束と、編集されたテキストの統計モデルによって、文は言語モデルによって生成されるが、おそらく別のメカニズムで発生したいくつかの文を除いては、ほとんどが言語モデルによって生成されると述べている。
本手法の有効性を実データを用いて実証し,その成功に影響する要因を分析した。
この分析は、解決によってメソッドの有効性が向上する可能性のある、いくつかの興味深いオープンチャレンジを引き起こす。
関連論文リスト
- Beyond Turing: A Comparative Analysis of Approaches for Detecting
Machine-Generated Text [1.919654267936118]
従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。
結果は、メソッド間でのパフォーマンスにかなりの違いが示される。
この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
論文 参考訳(メタデータ) (2023-11-21T06:23:38Z) - Artificial Text Boundary Detection with Topological Data Analysis and
Sliding Window Techniques [7.268650032347209]
我々は,この人工テキスト境界検出問題に対して,様々なアプローチを検討・比較する。
本稿では,RoBERTaモデルの教師付き微調整が,一般に有効であることを示す。
本研究では,凍結言語モデルの埋め込みから抽出した特徴に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T17:48:19Z) - Language Model Decoding as Direct Metrics Optimization [95.78717767103458]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。
モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文 参考訳(メタデータ) (2022-02-13T21:46:14Z) - A Latent-Variable Model for Intrinsic Probing [94.61336186402615]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z) - The Sensitivity of Word Embeddings-based Author Detection Models to
Semantic-preserving Adversarial Perturbations [3.7552532139404797]
著者分析は自然言語処理の分野において重要な課題である。
本稿では,入力の逆操作に対する既成アプローチの限界と感度について考察する。
論文 参考訳(メタデータ) (2021-02-23T19:55:45Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。