論文の概要: Machine-generated Text Localization
- arxiv url: http://arxiv.org/abs/2402.11744v1
- Date: Mon, 19 Feb 2024 00:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:07:47.242413
- Title: Machine-generated Text Localization
- Title(参考訳): マシン生成テキストローカライズ
- Authors: Zhongping Zhang, Wenda Qin, Bryan A. Plummer
- Abstract要約: それまでの作業では、MGTをドキュメント全体に対するバイナリ分類タスクとして定式化していた。
本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。
事前の作業よりも平均精度(mAP)が4-13%向上したことは、5つの多様なデータセットに対するアプローチの有効性を示している。
- 参考スコア(独自算出の注目度): 18.13736280356486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-Generated Text (MGT) detection aims to identify a piece of text as
machine or human written. Prior work has primarily formulated MGT as a binary
classification task over an entire document, with limited work exploring cases
where only part of a document is machine generated. This paper provides the
first in-depth study of MGT that localizes the portions of a document that were
machine generated. Thus, if a bad actor were to change a key portion of a news
article to spread misinformation, whole document MGT detection may fail since
the vast majority is human written, but our approach can succeed due to its
granular approach. A key challenge in our MGT localization task is that short
spans of text, e.g., a single sentence, provides little information indicating
if it is machine generated due to its short length. To address this, we
leverage contextual information, where we predict whether multiple sentences
are machine or human written at once. This enables our approach to identify
changes in style or content to boost performance. A gain of 4-13% mean Average
Precision (mAP) over prior work demonstrates the effectiveness of approach on
five diverse datasets: GoodNews, VisualNews, WikiText, Essay, and WP. We
release our implementation at
\href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL}.
- Abstract(参考訳): MGT(Machine-Generated Text)検出は、テキストを機械または人文として識別することを目的としている。
それまでの作業はMGTを文書全体に対するバイナリ分類タスクとして定式化しており、文書の一部のみが機械生成される場合に限定的な作業である。
本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。
したがって、悪役がニュース記事の重要部分を変更して誤報を広めると、大半は人間が書いたため、全文書mgt検出は失敗するかもしれないが、その粒度の細かいアプローチによって、我々のアプローチは成功する。
MGTローカライゼーションタスクにおける重要な課題は、例えば1文のような短いテキストが、その短い長さのために機械が生成されるかどうかを示す情報が少ないことである。
これに対処するために、複数の文が機械か人間かを同時に書くかを予測する文脈情報を利用する。
これにより、パフォーマンスを高めるためにスタイルやコンテンツの変更を特定することができます。
以前の作業に対する平均精度(map)は4-13%上昇し、goodnews、visualnews、wikitext、エッセイ、wpの5つの多様なデータセットに対するアプローチの有効性が示されている。
実装は \href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL} でリリースしています。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z) - Unsupervised and Distributional Detection of Machine-Generated Text [1.552214657968262]
自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。
繰り返し高次n-gramを利用した機械生成文書の検出手法を提案する。
我々の実験は、その信号を利用することで、不審な文書を正確にランク付けできることを示している。
論文 参考訳(メタデータ) (2021-11-04T14:07:46Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。