論文の概要: Detecting Machine-Generated Texts by Multi-Population Aware Optimization
for Maximum Mean Discrepancy
- arxiv url: http://arxiv.org/abs/2402.16041v2
- Date: Thu, 29 Feb 2024 14:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:20:42.725790
- Title: Detecting Machine-Generated Texts by Multi-Population Aware Optimization
for Maximum Mean Discrepancy
- Title(参考訳): 最大平均不一致に対するマルチ人口認識最適化による機械生成テキストの検出
- Authors: Shuhai Zhang, Yiliao Song, Jiahao Yang, Yuanqing Li, Bo Han, Mingkui
Tan
- Abstract要約: 機械生成テキスト(MGT)は、盗作、誤解を招く情報、幻覚などの重大なリスクを負う可能性がある。
MGTと人文テキストを区別することは困難である。
そこで本研究では,MDD-MPと呼ばれるMDDのテキストマルチユーザ対応最適化手法を提案する。
- 参考スコア(独自算出の注目度): 47.382793714455445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as ChatGPT have exhibited remarkable
performance in generating human-like texts. However, machine-generated texts
(MGTs) may carry critical risks, such as plagiarism issues, misleading
information, or hallucination issues. Therefore, it is very urgent and
important to detect MGTs in many situations. Unfortunately, it is challenging
to distinguish MGTs and human-written texts because the distributional
discrepancy between them is often very subtle due to the remarkable performance
of LLMs. In this paper, we seek to exploit \textit{maximum mean discrepancy}
(MMD) to address this issue in the sense that MMD can well identify
distributional discrepancies. However, directly training a detector with MMD
using diverse MGTs will incur a significantly increased variance of MMD since
MGTs may contain \textit{multiple text populations} due to various LLMs. This
will severely impair MMD's ability to measure the difference between two
samples. To tackle this, we propose a novel \textit{multi-population} aware
optimization method for MMD called MMD-MP, which can \textit{avoid variance
increases} and thus improve the stability to measure the distributional
discrepancy. Relying on MMD-MP, we develop two methods for paragraph-based and
sentence-based detection, respectively. Extensive experiments on various LLMs,
\eg, GPT2 and ChatGPT, show superior detection performance of our MMD-MP. The
source code is available at \url{https://github.com/ZSHsh98/MMD-MP}.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、人間のようなテキストを生成する際に顕著な性能を示した。
しかし、機械生成テキスト(MGT)は、盗作問題、誤解を招く情報、幻覚問題などの重大なリスクを負う可能性がある。
したがって、多くの状況においてMGTを検出することが非常に緊急かつ重要である。
残念ながら、MGTと人文テキストを区別することは困難である。なぜなら、両者の分布の相違は、LLMの顕著な性能のため、しばしば非常に微妙であるからである。
本稿では, MMD が分布的不一致を適切に識別できるという意味で, この問題に対処するために, textit{maximum mean discrepancy} (MMD) を利用する。
しかし、MGTs は様々な LLM により \textit{multiple text population} を含む可能性があるため、MDD のばらつきが著しく増大する。
これにより、mmdの2つのサンプル間の差を測定する能力が著しく損なわれる。
そこで本研究では,MDD-MPと呼ばれるMDDの新規な<textit{multi-population}対応最適化手法を提案する。
MMD-MPを用いて段落ベースと文ベース検出の2つの手法を開発した。
各種LLM, \eg, GPT2, ChatGPTの大規模実験により, MMD-MPの優れた検出性能を示した。
ソースコードは \url{https://github.com/ZSHSH98/MMD-MP} で入手できる。
関連論文リスト
- Sign is Not a Remedy: Multiset-to-Multiset Message Passing for Learning on Heterophilic Graphs [77.42221150848535]
我々は、Multiset to Multiset GNN(M2M-GNN)と呼ばれる新しいメッセージパッシング機能を提案する。
M2M-GNNは上述のSMPの限界を効果的に緩和し, 比較性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-31T07:39:22Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - Partial identification of kernel based two sample tests with mismeasured
data [5.076419064097733]
最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。
そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
論文 参考訳(メタデータ) (2023-08-07T13:21:58Z) - MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System [57.650338588086186]
本稿では,MMSDの欠点を修正する補正データセットMMSD2.0を紹介する。
マルチビューCLIPと呼ばれる,複数視点から多粒度キューを活用可能な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T03:22:51Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Maximum Mean Discrepancy on Exponential Windows for Online Change Detection [3.1631981412766335]
MMDEW (Maximum Mean Discrepancy on Exponential Windows) と呼ばれる新しい変更検出アルゴリズムを提案する。
MMDEWは、MDDの利点と指数窓に基づく効率的な計算を組み合わせる。
MMDEWは多対数実行時と対数メモリの複雑さを満足しており、ベンチマークデータストリーム上でのテクニックの状態を実証的に上回ることを示す。
論文 参考訳(メタデータ) (2022-05-25T12:02:59Z) - Maximum Mean Discrepancy for Generalization in the Presence of
Distribution and Missingness Shift [0.0]
MMD損失成分の統合は、モデルが最適化に最適な機能を利用するのに役立ち、テストサンプル毎に可能な限り危険な外挿を避けるのに役立ちます。
このMDDアプローチで処理されたモデルでは、テストセットのパフォーマンス、キャリブレーション、外挿が向上する。
論文 参考訳(メタデータ) (2021-11-19T18:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。