論文の概要: AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text
- arxiv url: http://arxiv.org/abs/2404.00950v1
- Date: Mon, 1 Apr 2024 06:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:06:39.324473
- Title: AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text
- Title(参考訳): SemEval-2024 Task 8 における AISPACE:マルチジェネレータ生成テキスト検出のためのクラスバランスソフト投票システム
- Authors: Renhua Gu, Xiangfeng Meng,
- Abstract要約: SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SemEval-2024 Task 8 provides a challenge to detect human-written and machine-generated text. There are 3 subtasks for different detection scenarios. This paper proposes a system that mainly deals with Subtask B. It aims to detect if given full text is written by human or is generated by a specific Large Language Model (LLM), which is actually a multi-class text classification task. Our team AISPACE conducted a systematic study of fine-tuning transformer-based models, including encoderonly, decoder-only and encoder-decoder models. We compared their performance on this task and identified that encoder-only models performed exceptionally well. We also applied a weighted Cross Entropy loss function to address the issue of data imbalance of different class samples. Additionally, we employed softvoting strategy over multi-models ensemble to enhance the reliability of our predictions. Our system ranked top 1 in Subtask B, which sets a state-of-the-art benchmark for this new challenge.
- Abstract(参考訳): SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
異なる検出シナリオには3つのサブタスクがある。
本稿では,主にSubtask Bを扱うシステムを提案する。本システムは,与えられた全文が人間によって書かれたか,あるいは,実際にマルチクラステキスト分類タスクである特定のLarge Language Model(LLM)によって生成されたかを検出することを目的としている。
当社の AISPACE チームは,エンコーダオンリー,デコーダオンリー,エンコーダ-デコーダモデルを含む,微調整トランスフォーマベースモデルの体系的研究を行った。
このタスクでそれらの性能を比較して,エンコーダのみのモデルが極めて良好に動作していることを確認した。
また、重み付きクロスエントロピー損失関数を適用し、異なるクラスサンプルのデータ不均衡の問題に対処した。
さらに,予測の信頼性を高めるため,マルチモデルアンサンブル上でのソフトボッティング戦略を採用した。
我々のシステムはSubtask Bの上位1位にランクインした。
関連論文リスト
- Multi-head Sequence Tagging Model for Grammatical Error Correction [31.538895931875565]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、ソースシーケンスとターゲットシーケンスのマッピングである。
現在のシーケンスタギングアプローチでは、あるタスクにレーザーを集中させることで、幅広い文法的誤りを処理できるという問題がある。
本稿では,学習データを効果的に活用し,関連する課題訓練信号からの情報を活用するための,新しいマルチヘッド・マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:01:06Z) - Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。
本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文 参考訳(メタデータ) (2024-07-03T10:22:23Z) - Transformer and Hybrid Deep Learning Based Models for Machine-Generated Text Detection [4.373647283459287]
本稿では,SemEval 2024 Task 8: Multigenerator, Multi domain, and Multilingual Black-Box Machine-Generated Text Detectionの取り組みについて述べる。
論文 参考訳(メタデータ) (2024-05-28T08:48:08Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - DIALOG-22 RuATD Generated Text Detection [0.0]
TGM生成テキストと人書きテキストを区別できる検出器は、TGMの乱用を防ぐ重要な役割を果たす。
DIALOG-22 RuATDタスクのパイプラインを記述し、生成したテキスト(バイナリタスク)を検出し、どのモデルを使用してテキストを生成するかの分類を行う。
論文 参考訳(メタデータ) (2022-06-16T09:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。