論文の概要: Machine-generated Text Localization
- arxiv url: http://arxiv.org/abs/2402.11744v1
- Date: Mon, 19 Feb 2024 00:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:07:47.242413
- Title: Machine-generated Text Localization
- Title(参考訳): マシン生成テキストローカライズ
- Authors: Zhongping Zhang, Wenda Qin, Bryan A. Plummer
- Abstract要約: それまでの作業では、MGTをドキュメント全体に対するバイナリ分類タスクとして定式化していた。
本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。
事前の作業よりも平均精度(mAP)が4-13%向上したことは、5つの多様なデータセットに対するアプローチの有効性を示している。
- 参考スコア(独自算出の注目度): 18.13736280356486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-Generated Text (MGT) detection aims to identify a piece of text as
machine or human written. Prior work has primarily formulated MGT as a binary
classification task over an entire document, with limited work exploring cases
where only part of a document is machine generated. This paper provides the
first in-depth study of MGT that localizes the portions of a document that were
machine generated. Thus, if a bad actor were to change a key portion of a news
article to spread misinformation, whole document MGT detection may fail since
the vast majority is human written, but our approach can succeed due to its
granular approach. A key challenge in our MGT localization task is that short
spans of text, e.g., a single sentence, provides little information indicating
if it is machine generated due to its short length. To address this, we
leverage contextual information, where we predict whether multiple sentences
are machine or human written at once. This enables our approach to identify
changes in style or content to boost performance. A gain of 4-13% mean Average
Precision (mAP) over prior work demonstrates the effectiveness of approach on
five diverse datasets: GoodNews, VisualNews, WikiText, Essay, and WP. We
release our implementation at
\href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL}.
- Abstract(参考訳): MGT(Machine-Generated Text)検出は、テキストを機械または人文として識別することを目的としている。
それまでの作業はMGTを文書全体に対するバイナリ分類タスクとして定式化しており、文書の一部のみが機械生成される場合に限定的な作業である。
本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。
したがって、悪役がニュース記事の重要部分を変更して誤報を広めると、大半は人間が書いたため、全文書mgt検出は失敗するかもしれないが、その粒度の細かいアプローチによって、我々のアプローチは成功する。
MGTローカライゼーションタスクにおける重要な課題は、例えば1文のような短いテキストが、その短い長さのために機械が生成されるかどうかを示す情報が少ないことである。
これに対処するために、複数の文が機械か人間かを同時に書くかを予測する文脈情報を利用する。
これにより、パフォーマンスを高めるためにスタイルやコンテンツの変更を特定することができます。
以前の作業に対する平均精度(map)は4-13%上昇し、goodnews、visualnews、wikitext、エッセイ、wpの5つの多様なデータセットに対するアプローチの有効性が示されている。
実装は \href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL} でリリースしています。
関連論文リスト
- M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text
Detection [70.96684450854274]
大規模言語モデル(LLM)は、機械生成テキスト(MGT)に前例のない急上昇をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
これらの内容と本物の人間生成テキストを識別し区別する必要性は、偽情報との戦いにおいて重要である。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z) - Unsupervised and Distributional Detection of Machine-Generated Text [1.552214657968262]
自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。
繰り返し高次n-gramを利用した機械生成文書の検出手法を提案する。
我々の実験は、その信号を利用することで、不審な文書を正確にランク付けできることを示している。
論文 参考訳(メタデータ) (2021-11-04T14:07:46Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。