論文の概要: DIALOG-22 RuATD Generated Text Detection
- arxiv url: http://arxiv.org/abs/2206.08029v1
- Date: Thu, 16 Jun 2022 09:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 05:42:50.394169
- Title: DIALOG-22 RuATD Generated Text Detection
- Title(参考訳): DIALOG-22 RuATD生成テキスト検出
- Authors: Narek Maloyan, Bulat Nutfullin, Eugene Ilyushin
- Abstract要約: TGM生成テキストと人書きテキストを区別できる検出器は、TGMの乱用を防ぐ重要な役割を果たす。
DIALOG-22 RuATDタスクのパイプラインを記述し、生成したテキスト(バイナリタスク)を検出し、どのモデルを使用してテキストを生成するかの分類を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text Generation Models (TGMs) succeed in creating text that matches human
language style reasonably well. Detectors that can distinguish between
TGM-generated text and human-written ones play an important role in preventing
abuse of TGM.
In this paper, we describe our pipeline for the two DIALOG-22 RuATD tasks:
detecting generated text (binary task) and classification of which model was
used to generate text (multiclass task). We achieved 1st place on the binary
classification task with an accuracy score of 0.82995 on the private test set
and 4th place on the multiclass classification task with an accuracy score of
0.62856 on the private test set. We proposed an ensemble method of different
pre-trained models based on the attention mechanism.
- Abstract(参考訳): テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを作成することに成功した。
TGM生成テキストと人書きテキストを区別できる検出器は、TGMの乱用を防ぐ重要な役割を果たす。
本稿では,生成したテキスト(バイナリタスク)の検出と,テキスト生成に使用するモデルの分類(マルチクラスタスク)という,2つのdialog-22 ruatdタスクのパイプラインについて述べる。
本研究は,2値分類タスクにおいて1位,プライベートテストセットでは0.82995,マルチクラス分類タスクでは4位,プライベートテストセットでは0.62856であった。
本研究では,注意機構に基づく事前学習モデルのアンサンブル手法を提案する。
関連論文リスト
- KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual
Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - How well can machine-generated texts be identified and can language
models be trained to avoid identification? [1.1606619391009658]
合成ツイートを生成するために、5つの異なる言語モデルを洗練します。
ナイーブベイズのような浅層学習分類アルゴリズムは0.6から0.8の精度で検出できることがわかった。
生成モデルを改良するために強化学習アプローチを用いることで,検出精度0.15以下でBERTベースの分類を回避できることが判明した。
論文 参考訳(メタデータ) (2023-10-25T20:43:07Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - GPT Paternity Test: GPT Generated Text Detection with GPT Genetic
Inheritance [89.97709633381172]
GPTパタニティテスト(GPT-Pat)を導入する。
原文と生成された再回答テキストとの類似性を比較することにより、本文が機械生成されているか否かを判定することができる。
提案手法は4つの一般化テストセットで平均94.57%の精度を達成し, 最先端のRoBERTa法を12.34%上回った。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - UPB at SemEval-2021 Task 7: Adversarial Multi-Task Learning for
Detecting and Rating Humor and Offense [0.6404122934568858]
本稿では, 敵のマルチタスクネットワークであるAMTL-Humorを用いて, ユーモアや攻撃的テキストの検出と評価を行う。
私達の最もよいモデルはすべてのテストされた構成のアンサンブルから成り、95.66% F1スコアおよびタスク1aのための94.70%の正確さを達成します。
論文 参考訳(メタデータ) (2021-04-13T09:59:05Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。