論文の概要: DIALOG-22 RuATD Generated Text Detection
- arxiv url: http://arxiv.org/abs/2206.08029v1
- Date: Thu, 16 Jun 2022 09:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 05:42:50.394169
- Title: DIALOG-22 RuATD Generated Text Detection
- Title(参考訳): DIALOG-22 RuATD生成テキスト検出
- Authors: Narek Maloyan, Bulat Nutfullin, Eugene Ilyushin
- Abstract要約: TGM生成テキストと人書きテキストを区別できる検出器は、TGMの乱用を防ぐ重要な役割を果たす。
DIALOG-22 RuATDタスクのパイプラインを記述し、生成したテキスト(バイナリタスク)を検出し、どのモデルを使用してテキストを生成するかの分類を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text Generation Models (TGMs) succeed in creating text that matches human
language style reasonably well. Detectors that can distinguish between
TGM-generated text and human-written ones play an important role in preventing
abuse of TGM.
In this paper, we describe our pipeline for the two DIALOG-22 RuATD tasks:
detecting generated text (binary task) and classification of which model was
used to generate text (multiclass task). We achieved 1st place on the binary
classification task with an accuracy score of 0.82995 on the private test set
and 4th place on the multiclass classification task with an accuracy score of
0.62856 on the private test set. We proposed an ensemble method of different
pre-trained models based on the attention mechanism.
- Abstract(参考訳): テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを作成することに成功した。
TGM生成テキストと人書きテキストを区別できる検出器は、TGMの乱用を防ぐ重要な役割を果たす。
本稿では,生成したテキスト(バイナリタスク)の検出と,テキスト生成に使用するモデルの分類(マルチクラスタスク)という,2つのdialog-22 ruatdタスクのパイプラインについて述べる。
本研究は,2値分類タスクにおいて1位,プライベートテストセットでは0.82995,マルチクラス分類タスクでは4位,プライベートテストセットでは0.62856であった。
本研究では,注意機構に基づく事前学習モデルのアンサンブル手法を提案する。
関連論文リスト
- Sharif-MGTD at SemEval-2024 Task 8: A Transformer-Based Approach to Detect Machine Generated Text [2.2039952888743253]
MGTは自然言語処理において重要な研究領域となっている。
本研究では,強力なニューラルアーキテクチャであるRoBERTaベーストランスを微調整し,MGT検出に対処する効果について検討する。
提案システムでは,テストデータセットの78.9%の精度を達成し,参加者の57位に位置づけた。
論文 参考訳(メタデータ) (2024-07-16T14:33:01Z) - Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。
本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文 参考訳(メタデータ) (2024-07-03T10:22:23Z) - Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection [0.0]
そこで本研究では,機械が生成したテキストを,そこから派生した大きな言語モデルが未知の場合に検出する問題について検討する。
生成型(またはベース)言語モデルと識別型(またはスコアリング型)言語モデルとが同一である場合に高い精度で、ゼロショットモデルを用いてテキスト検出を行う。
論文 参考訳(メタデータ) (2024-06-18T12:58:01Z) - AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T06:25:47Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - UPB at SemEval-2021 Task 7: Adversarial Multi-Task Learning for
Detecting and Rating Humor and Offense [0.6404122934568858]
本稿では, 敵のマルチタスクネットワークであるAMTL-Humorを用いて, ユーモアや攻撃的テキストの検出と評価を行う。
私達の最もよいモデルはすべてのテストされた構成のアンサンブルから成り、95.66% F1スコアおよびタスク1aのための94.70%の正確さを達成します。
論文 参考訳(メタデータ) (2021-04-13T09:59:05Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。