論文の概要: HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to
Detect Machine-Generated Text?
- arxiv url: http://arxiv.org/abs/2402.11815v1
- Date: Mon, 19 Feb 2024 04:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 18:26:44.074517
- Title: HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to
Detect Machine-Generated Text?
- Title(参考訳): semeval-2024 task 8a: コントラスト学習は、機械で生成されたテキストを検出するために埋め込みを学習できるか?
- Authors: Shubhashis Roy Dipta and Sadat Shahriar
- Abstract要約: 本稿では,SemEval-2024タスク8"マルチジェネレータ,マルチドメイン,マルチ言語ブラックボックスマシン生成テキスト検出"のために開発したシステムについて述べる。
本研究では,ベースラインのパラメータの40%を用いたコントラスト学習に基づく単一モデルを提案する。
重要な発見は、複数のモデルのアンサンブルがなくても、単一のベースモデルは、データ拡張と対照的な学習の助けを借りて、同等のパフォーマンスを持つことができるということです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our system developed for SemEval-2024 Task 8,
"Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text
Detection." Machine-generated texts have been one of the main concerns due to
the use of large language models (LLM) in fake text generation, phishing,
cheating in exams, or even plagiarizing copyright materials. A lot of systems
have been developed to detect machine-generated text. Nonetheless, the majority
of these systems rely on the text-generating model, a limitation that is
impractical in real-world scenarios, as it's often impossible to know which
specific model the user has used for text generation. In this work, we propose
a single model based on contrastive learning, which uses ~40% of the baseline's
parameters (149M vs. 355M) but shows a comparable performance on the test
dataset (21st out of 137 participants). Our key finding is that even without an
ensemble of multiple models, a single base model can have comparable
performance with the help of data augmentation and contrastive learning.
- Abstract(参考訳): 本稿では, semeval-2024タスク8 "multigenerator, multidomain, and multilingual black-box machine- generated text detection" のために開発したシステムについて述べる。
機械生成テキストは、偽のテキスト生成、フィッシング、試験での不正、さらには著作権資料の盗用など、大きな言語モデル(LLM)の使用が主な関心事の一つである。
機械生成テキストを検出するために多くのシステムが開発されている。
それにもかかわらず、これらのシステムの大部分はテキスト生成モデルに依存しており、ユーザーがテキスト生成に使った特定のモデルを知ることがしばしば不可能であるため、現実世界のシナリオでは現実的でない制限である。
本研究では,ベースラインのパラメータの約40%(149m対355m)を使用するが,テストデータセット(参加者137人中21人)で同等のパフォーマンスを示す,コントラスト学習に基づく単一モデルを提案する。
私たちの重要な発見は、複数のモデルのアンサンブルがなくても、データ拡張とコントラスト学習の助けを借りて、1つのベースモデルで同等のパフォーマンスが得られるということです。
関連論文リスト
- Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual
Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。