Fugu-MT 論文翻訳(概要): Machine-generated Text Localization

論文の概要: Machine-generated Text Localization

arxiv url: http://arxiv.org/abs/2402.11744v1
Date: Mon, 19 Feb 2024 00:07:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 19:07:47.242413
Title: Machine-generated Text Localization
Title（参考訳）: マシン生成テキストローカライズ
Authors: Zhongping Zhang, Wenda Qin, Bryan A. Plummer
Abstract要約: それまでの作業では、MGTをドキュメント全体に対するバイナリ分類タスクとして定式化していた。本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。事前の作業よりも平均精度(mAP)が4-13%向上したことは、5つの多様なデータセットに対するアプローチの有効性を示している。
参考スコア（独自算出の注目度）: 18.13736280356486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine-Generated Text (MGT) detection aims to identify a piece of text as machine or human written. Prior work has primarily formulated MGT as a binary classification task over an entire document, with limited work exploring cases where only part of a document is machine generated. This paper provides the first in-depth study of MGT that localizes the portions of a document that were machine generated. Thus, if a bad actor were to change a key portion of a news article to spread misinformation, whole document MGT detection may fail since the vast majority is human written, but our approach can succeed due to its granular approach. A key challenge in our MGT localization task is that short spans of text, e.g., a single sentence, provides little information indicating if it is machine generated due to its short length. To address this, we leverage contextual information, where we predict whether multiple sentences are machine or human written at once. This enables our approach to identify changes in style or content to boost performance. A gain of 4-13% mean Average Precision (mAP) over prior work demonstrates the effectiveness of approach on five diverse datasets: GoodNews, VisualNews, WikiText, Essay, and WP. We release our implementation at \href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL}.
Abstract（参考訳）: MGT(Machine-Generated Text)検出は、テキストを機械または人文として識別することを目的としている。それまでの作業はMGTを文書全体に対するバイナリ分類タスクとして定式化しており、文書の一部のみが機械生成される場合に限定的な作業である。本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。したがって、悪役がニュース記事の重要部分を変更して誤報を広めると、大半は人間が書いたため、全文書mgt検出は失敗するかもしれないが、その粒度の細かいアプローチによって、我々のアプローチは成功する。 MGTローカライゼーションタスクにおける重要な課題は、例えば1文のような短いテキストが、その短い長さのために機械が生成されるかどうかを示す情報が少ないことである。これに対処するために、複数の文が機械か人間かを同時に書くかを予測する文脈情報を利用する。これにより、パフォーマンスを高めるためにスタイルやコンテンツの変更を特定することができます。以前の作業に対する平均精度(map)は4-13%上昇し、goodnews、visualnews、wikitext、エッセイ、wpの5つの多様なデータセットに対するアプローチの有効性が示されている。実装は \href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL} でリリースしています。

関連論文リスト

WETBench: A Benchmark for Detecting Task-Specific Machine-Generated Text on Wikipedia [2.255682336735152]
既存の研究は主にジェネリックジェネレーションタスクにおけるMGT検出器を評価する。 MGT検出のための多言語,マルチジェネレータ,タスク固有ベンチマークを提案する。設定によって、トレーニングベースの検出器は平均精度78%、ゼロショット検出器は平均58%に達する。
論文参考訳（メタデータ） (2025-07-04T08:13:10Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection [39.62360229183229]
大規模言語モデル (LLM) はテキスト生成に革命をもたらした。機械生成テキストの検出はますます困難になっている。 ImBD(Imitate Before Detect)アプローチを提案する。次に、テスト対象のテキストの分布とマシンスタイルの分布を比較し、そのテキストが機械修正されたかどうかを判定する。
論文参考訳（メタデータ） (2024-12-11T03:17:14Z)
GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文参考訳（メタデータ） (2024-10-31T08:30:55Z)
LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。細粒度検出のためのLLM-DetectAIveを提案する。 i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文参考訳（メタデータ） (2024-08-08T07:43:17Z)
M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-02-17T02:50:33Z)
M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文参考訳（メタデータ） (2023-05-24T08:55:11Z)
Smaller Language Models are Better Black-box Machine-Generated Text Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文参考訳（メタデータ） (2023-05-17T00:09:08Z)
SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文参考訳（メタデータ） (2023-05-01T12:47:55Z)
CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。 2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文参考訳（メタデータ） (2022-12-20T15:26:19Z)
Unsupervised and Distributional Detection of Machine-Generated Text [1.552214657968262]
自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。繰り返し高次n-gramを利用した機械生成文書の検出手法を提案する。我々の実験は、その信号を利用することで、不審な文書を正確にランク付けできることを示している。
論文参考訳（メタデータ） (2021-11-04T14:07:46Z)
GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。 GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文参考訳（メタデータ） (2020-05-19T20:24:02Z)
Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文参考訳（メタデータ） (2020-05-16T18:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。