Fugu-MT 論文翻訳(概要): Separating the Human Touch from AI-Generated Text using Higher Criticism: An Information-Theoretic Approach

論文の概要: Separating the Human Touch from AI-Generated Text using Higher Criticism: An Information-Theoretic Approach

arxiv url: http://arxiv.org/abs/2308.12747v1
Date: Thu, 24 Aug 2023 12:49:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 14:05:44.025927
Title: Separating the Human Touch from AI-Generated Text using Higher Criticism: An Information-Theoretic Approach
Title（参考訳）: 高批判を用いたAIテキストからの人間の触覚の分離:情報理論的アプローチ
Authors: Alon Kipnis
Abstract要約: 方法は、対数パープレクティリティとクロスエントロピー率の収束によって動機付けられる。実データを用いて本手法の有効性を実証し,その成功に影響を及ぼす要因を分析した。
参考スコア（独自算出の注目度）: 8.285441115330944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a method to determine whether a given article was entirely written by a generative language model versus an alternative situation in which the article includes some significant edits by a different author, possibly a human. Our process involves many perplexity tests for the origin of individual sentences or other text atoms, combining these multiple tests using Higher Criticism (HC). As a by-product, the method identifies parts suspected to be edited. The method is motivated by the convergence of the log-perplexity to the cross-entropy rate and by a statistical model for edited text saying that sentences are mostly generated by the language model, except perhaps for a few sentences that might have originated via a different mechanism. We demonstrate the effectiveness of our method using real data and analyze the factors affecting its success. This analysis raises several interesting open challenges whose resolution may improve the method's effectiveness.
Abstract（参考訳）: 本稿では,ある記事が生成言語モデルによって完全に書かれていたのか,あるいは別の著者による重要な編集を含む別の状況なのかを判断する手法を提案する。我々のプロセスは、個々の文や他のテキスト原子の起源に関する多くのパープレキシティテストを含み、高批判(HC)を用いたこれらの複数のテストを組み合わせる。副産物として、編集されると思われる部品を特定する。この方法は、クロスエントロピー率への対数パープレキシティの収束と、編集されたテキストの統計モデルによって、文は言語モデルによって生成されるが、おそらく別のメカニズムで発生したいくつかの文を除いては、ほとんどが言語モデルによって生成されると述べている。本手法の有効性を実データを用いて実証し,その成功に影響する要因を分析した。この分析は、解決によってメソッドの有効性が向上する可能性のある、いくつかの興味深いオープンチャレンジを引き起こす。

関連論文リスト

TempTest: Local Normalization Distortion and the Detection of Machine-generated Text [0.0]
本稿では,生成言語モデルに完全に依存した機械生成テキストを検出する手法を提案する。これは、温度やトップkサンプリングのようなデコード戦略が条件付き確率測度を正規化する方法の欠陥を目標にすることで達成される。我々は,様々な言語モデル,データセット,通過距離の異なる,白と黒のボックス設定での検出器の評価を行った。
論文参考訳（メタデータ） (2025-03-26T10:56:59Z)
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T01:15:07Z)
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-01-07T14:17:47Z)
Discovering influential text using convolutional neural networks [0.0]
本稿では,畳み込みニューラルネットワークを用いたテキストに対する人間の反応を予測可能な類似文句のクラスタを発見する手法を提案する。提案手法を2つのデータセットに適用し,まず,結果の原因となるフレーズをモデルが検出する能力の直接検証を可能にする。どちらの場合も、モデルはベンチマーク手法よりも多種多様なテキスト処理を学習し、これらのテキスト機能は、ベンチマーク手法が結果を予測する能力を定量的に満たしたり、超えたりすることができる。
論文参考訳（メタデータ） (2024-06-14T14:41:44Z)
Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文参考訳（メタデータ） (2024-05-30T17:38:44Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
A Deep Learning Anomaly Detection Method in Textual Data [0.45687771576879593]
本稿では,従来の機械学習アルゴリズムと組み合わせたディープラーニングとトランスフォーマーアーキテクチャを提案する。我々は、異常を予測するために、文変換器、オート、ロジスティック回帰、距離計算など、複数の機械学習手法を使用した。
論文参考訳（メタデータ） (2022-11-25T05:18:13Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文参考訳（メタデータ） (2021-11-09T13:30:34Z)
The Sensitivity of Word Embeddings-based Author Detection Models to Semantic-preserving Adversarial Perturbations [3.7552532139404797]
著者分析は自然言語処理の分野において重要な課題である。本稿では,入力の逆操作に対する既成アプローチの限界と感度について考察する。
論文参考訳（メタデータ） (2021-02-23T19:55:45Z)
Method of the coherence evaluation of Ukrainian text [0.0]
ウクライナ語のテキストコヒーレンス測定法について分析した。訓練と試験はウクライナのテキストのコーパスで行われている。テキストコヒーレンス評価のための2つの典型的なタスクを実行することで、テスト手順を実行する。
論文参考訳（メタデータ） (2020-10-31T16:48:55Z)
Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文参考訳（メタデータ） (2020-10-06T15:21:08Z)
A computational model implementing subjectivity with the 'Room Theory'. The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文参考訳（メタデータ） (2020-05-12T21:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。