論文の概要: GenAI Content Detection Task 2: AI vs. Human -- Academic Essay Authenticity Challenge
- arxiv url: http://arxiv.org/abs/2412.18274v1
- Date: Tue, 24 Dec 2024 08:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:36.333187
- Title: GenAI Content Detection Task 2: AI vs. Human -- Academic Essay Authenticity Challenge
- Title(参考訳): GenAIコンテンツ検出タスク2: AI vs. 人間 -- 学術的Essay Authenticity Challenge
- Authors: Shammur Absar Chowdhury, Hind Almerekhi, Mucahid Kutlu, Kaan Efe Keles, Fatema Ahmad, Tasnim Mohiuddin, George Mikros, Firoj Alam,
- Abstract要約: 学術エッセイ認証チャレンジ(Academic Essay Authenticity Challenge)は、2025年にコリングと共同で行われたGenAIコンテンツ検出共有タスクの一部として開催された。
この課題は、学術的な目的のために、機械生成対人間によるエッセイを検出することに焦点を当てている。
英語とアラビア語の2つの言語がある。
本稿では,タスクの定式化の概要,データセット構築プロセスの詳細,評価フレームワークについて説明する。
- 参考スコア(独自算出の注目度): 12.076440946525434
- License:
- Abstract: This paper presents a comprehensive overview of the first edition of the Academic Essay Authenticity Challenge, organized as part of the GenAI Content Detection shared tasks collocated with COLING 2025. This challenge focuses on detecting machine-generated vs. human-authored essays for academic purposes. The task is defined as follows: "Given an essay, identify whether it is generated by a machine or authored by a human.'' The challenge involves two languages: English and Arabic. During the evaluation phase, 25 teams submitted systems for English and 21 teams for Arabic, reflecting substantial interest in the task. Finally, seven teams submitted system description papers. The majority of submissions utilized fine-tuned transformer-based models, with one team employing Large Language Models (LLMs) such as Llama 2 and Llama 3. This paper outlines the task formulation, details the dataset construction process, and explains the evaluation framework. Additionally, we present a summary of the approaches adopted by participating teams. Nearly all submitted systems outperformed the n-gram-based baseline, with the top-performing systems achieving F1 scores exceeding 0.98 for both languages, indicating significant progress in the detection of machine-generated text.
- Abstract(参考訳): 本稿では,Coling 2025と協調したGenAIコンテンツ検出共有タスクの一環として組織された,学術エッセイ認証チャレンジの第1版の概要を概観する。
この課題は、学術的な目的のために、機械生成対人間によるエッセイを検出することに焦点を当てている。
課題は次のように定義されている:「エッセイを提出し、機械によって生成されたか、あるいは人間が作成したかを特定する。
英語とアラビア語の2つの言語がある。
評価期間中、25のチームが英語と21のチームに対してアラビア語のシステムを提出し、タスクへのかなりの関心を反映した。
最終的に7つのチームがシステム記述論文を提出した。
提出者の大半は微調整されたトランスフォーマーベースモデルを使用しており、一方のチームはLlama 2やLlama 3のようなLarge Language Models (LLM)を採用している。
本稿では,タスクの定式化の概要,データセット構築プロセスの詳細,評価フレームワークについて説明する。
さらに、参加チームによって採用されるアプローチの要約を示す。
ほぼ全ての提出されたシステムはn-gramベースのベースラインを上回り、両方の言語でF1スコアが0.98を超え、機械生成テキストの検出が大幅に進歩した。
関連論文リスト
- ArAIEval Shared Task: Propagandistic Techniques Detection in Unimodal and Multimodal Arabic Content [9.287041393988485]
我々は、ACL 2024と共同で開催されるアラビア2024会議の一環として組織された、ArAIEval共有タスクの第2版の概要を示す。
この版では、(i)つぶやきやニュース記事の特定による宣伝的テキストスパンの検出、(ii)プロパガンダ主義と非プロパガンダ主義のミームを区別する2つのタスクが提供されている。
最終評価フェーズには14チームが参加し、それぞれ6チームと9チームがタスク1と2に参加した。
論文 参考訳(メタデータ) (2024-07-05T04:28:46Z) - IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts [4.78482610709922]
本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。
この課題は、14言語における文のペア間の関連度を自動的に検出することに焦点を当てている。
論文 参考訳(メタデータ) (2024-04-06T05:58:42Z) - Mavericks at ArAIEval Shared Task: Towards a Safer Digital Space --
Transformer Ensemble Models Tackling Deception and Persuasion [0.0]
本稿では,各課題のタスク1-Aとタスク2-Aのアプローチについて述べる。
タスクは、与えられたバイナリ分類問題に対して、ツイートとニュース記事のマルチジャンルスニペットを使用する。
タスク1-A(8位)では0.742、タスク2-A(7位)では0.901のマイクロF1スコアを達成した。
論文 参考訳(メタデータ) (2023-11-30T17:26:57Z) - ArAIEval Shared Task: Persuasion Techniques and Disinformation Detection
in Arabic Text [41.3267575540348]
本稿では, EMNLP 2023と共同で開催される第1回アラビア2023会議の一環として組織されたArAIEval共有タスクの概要を紹介する。
ArAIEvalは、アラビア文字上の2つのタスクを提供する: (i) 説得テクニックの検出、ツイートやニュース記事における説得テクニックの識別、および (ii) ツイート上のバイナリとマルチクラスの設定における偽情報検出。
最終評価フェーズには合計20チームが参加し、タスク1と2には14チームと16チームが参加した。
論文 参考訳(メタデータ) (2023-11-06T15:21:19Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Legend at ArAIEval Shared Task: Persuasion Technique Detection using a
Language-Agnostic Text Representation Model [1.3506669466260708]
本稿では,アラビアNLP 2023において,アラビアAIタスク評価チャレンジ(ArAIEval)への最高の成果を公表する。
タスク1は、ツイートやニュース記事からの抜粋における説得テクニックを特定することに焦点を当てました。
アラビア文字の説得法は,言語に依存しないテキスト表現モデルであるXLM-RoBERTaを用いて訓練ループを用いて検出された。
論文 参考訳(メタデータ) (2023-10-14T20:27:04Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。
データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。
我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文 参考訳(メタデータ) (2023-06-20T16:14:27Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Summarization with Graphical Elements [55.5913491389047]
本稿では,グラフィカル要素による要約という新しい課題を提案する。
タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
論文 参考訳(メタデータ) (2022-04-15T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。