論文の概要: HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to
Detect Machine-Generated Text?
- arxiv url: http://arxiv.org/abs/2402.11815v1
- Date: Mon, 19 Feb 2024 04:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:26:44.074517
- Title: HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to
Detect Machine-Generated Text?
- Title(参考訳): semeval-2024 task 8a: コントラスト学習は、機械で生成されたテキストを検出するために埋め込みを学習できるか?
- Authors: Shubhashis Roy Dipta and Sadat Shahriar
- Abstract要約: 本稿では,SemEval-2024タスク8"マルチジェネレータ,マルチドメイン,マルチ言語ブラックボックスマシン生成テキスト検出"のために開発したシステムについて述べる。
本研究では,ベースラインのパラメータの40%を用いたコントラスト学習に基づく単一モデルを提案する。
重要な発見は、複数のモデルのアンサンブルがなくても、単一のベースモデルは、データ拡張と対照的な学習の助けを借りて、同等のパフォーマンスを持つことができるということです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our system developed for SemEval-2024 Task 8,
"Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text
Detection." Machine-generated texts have been one of the main concerns due to
the use of large language models (LLM) in fake text generation, phishing,
cheating in exams, or even plagiarizing copyright materials. A lot of systems
have been developed to detect machine-generated text. Nonetheless, the majority
of these systems rely on the text-generating model, a limitation that is
impractical in real-world scenarios, as it's often impossible to know which
specific model the user has used for text generation. In this work, we propose
a single model based on contrastive learning, which uses ~40% of the baseline's
parameters (149M vs. 355M) but shows a comparable performance on the test
dataset (21st out of 137 participants). Our key finding is that even without an
ensemble of multiple models, a single base model can have comparable
performance with the help of data augmentation and contrastive learning.
- Abstract(参考訳): 本稿では, semeval-2024タスク8 "multigenerator, multidomain, and multilingual black-box machine- generated text detection" のために開発したシステムについて述べる。
機械生成テキストは、偽のテキスト生成、フィッシング、試験での不正、さらには著作権資料の盗用など、大きな言語モデル(LLM)の使用が主な関心事の一つである。
機械生成テキストを検出するために多くのシステムが開発されている。
それにもかかわらず、これらのシステムの大部分はテキスト生成モデルに依存しており、ユーザーがテキスト生成に使った特定のモデルを知ることがしばしば不可能であるため、現実世界のシナリオでは現実的でない制限である。
本研究では,ベースラインのパラメータの約40%(149m対355m)を使用するが,テストデータセット(参加者137人中21人)で同等のパフォーマンスを示す,コントラスト学習に基づく単一モデルを提案する。
私たちの重要な発見は、複数のモデルのアンサンブルがなくても、データ拡張とコントラスト学習の助けを借りて、1つのベースモデルで同等のパフォーマンスが得られるということです。
関連論文リスト
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。
本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文 参考訳(メタデータ) (2024-07-03T10:22:23Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - Text Embeddings Reveal (Almost) As Much As Text [86.5822042193058]
テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。
埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:39:03Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。