論文の概要: Overview of AuTexTification at IberLEF 2023: Detection and Attribution
of Machine-Generated Text in Multiple Domains
- arxiv url: http://arxiv.org/abs/2309.11285v1
- Date: Wed, 20 Sep 2023 13:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:45:43.411030
- Title: Overview of AuTexTification at IberLEF 2023: Detection and Attribution
of Machine-Generated Text in Multiple Domains
- Title(参考訳): IberLEF 2023におけるAuTexTificationの概要: 複数領域における機械生成テキストの検出と属性
- Authors: Areg Mikael Sarvazyan, Jos\'e \'Angel Gonz\'alez, Marc
Franco-Salvador, Francisco Rangel, Berta Chulvi, Paolo Rosso
- Abstract要約: 本稿では,IberleF 2023 Workshop in Iberian Languages Evaluation Forumの一環として,AuTexTificationタスクの概要を紹介する。
AuTexTificationデータセットには、2つの言語(英語とスペイン語)と5つのドメイン(ツイート、レビュー、ニュース、法律、ハウツー記事)に160万以上のテキストが含まれています。
合計114チームが参加し、うち36チームが175回、20チームがワークノートを送付した。
- 参考スコア(独自算出の注目度): 6.44756483013808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents the overview of the AuTexTification shared task as part
of the IberLEF 2023 Workshop in Iberian Languages Evaluation Forum, within the
framework of the SEPLN 2023 conference. AuTexTification consists of two
subtasks: for Subtask 1, participants had to determine whether a text is
human-authored or has been generated by a large language model. For Subtask 2,
participants had to attribute a machine-generated text to one of six different
text generation models. Our AuTexTification 2023 dataset contains more than
160.000 texts across two languages (English and Spanish) and five domains
(tweets, reviews, news, legal, and how-to articles). A total of 114 teams
signed up to participate, of which 36 sent 175 runs, and 20 of them sent their
working notes. In this overview, we present the AuTexTification dataset and
task, the submitted participating systems, and the results.
- Abstract(参考訳): 本稿では,sepln 2023カンファレンスの枠組みの中で,イベリア言語評価フォーラムの iberlef 2023 ワークショップ の一環として,オーテシフィケーション共有タスクの概要について述べる。
AuTexTificationは2つのサブタスクで構成されている: Subtask 1では、参加者はテキストが人間によって書かれたか、あるいは大きな言語モデルによって生成されたかを決定する必要があった。
Subtask 2では、参加者は機械生成テキストを6つの異なるテキスト生成モデルのうちの1つとみなさなければならなかった。
AuTexTification 2023データセットには、2つの言語(英語とスペイン語)と5つのドメイン(ツイート、レビュー、ニュース、法律、ハウツー記事)にわたる160,000以上のテキストが含まれています。
参加には合計114チームが参加し、うち36チームが175ラン、うち20チームがワークノートを送った。
本稿では,AuTexTificationデータセットとタスク,提出された参加システム,その結果について述べる。
関連論文リスト
- Findings of the IWSLT 2024 Evaluation Campaign [102.7608597658451]
本稿は、第21回IWSLT会議によって組織された共有タスクについて報告する。
共通タスクは、音声翻訳における7つの科学的課題に対処する。
論文 参考訳(メタデータ) (2024-11-07T19:11:55Z) - SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - ArAIEval Shared Task: Persuasion Techniques and Disinformation Detection
in Arabic Text [41.3267575540348]
本稿では, EMNLP 2023と共同で開催される第1回アラビア2023会議の一環として組織されたArAIEval共有タスクの概要を紹介する。
ArAIEvalは、アラビア文字上の2つのタスクを提供する: (i) 説得テクニックの検出、ツイートやニュース記事における説得テクニックの識別、および (ii) ツイート上のバイナリとマルチクラスの設定における偽情報検出。
最終評価フェーズには合計20チームが参加し、タスク1と2には14チームと16チームが参加した。
論文 参考訳(メタデータ) (2023-11-06T15:21:19Z) - Legend at ArAIEval Shared Task: Persuasion Technique Detection using a
Language-Agnostic Text Representation Model [1.3506669466260708]
本稿では,アラビアNLP 2023において,アラビアAIタスク評価チャレンジ(ArAIEval)への最高の成果を公表する。
タスク1は、ツイートやニュース記事からの抜粋における説得テクニックを特定することに焦点を当てました。
アラビア文字の説得法は,言語に依存しないテキスト表現モデルであるXLM-RoBERTaを用いて訓練ループを用いて検出された。
論文 参考訳(メタデータ) (2023-10-14T20:27:04Z) - UPB at IberLEF-2023 AuTexTification: Detection of Machine-Generated Text
using Transformer Ensembles [0.5324802812881543]
本稿では, UPB チームによる AuTexTification 共有タスクへのソリューションとして, IberleF-2023 の一部として紹介する。
我々の最高のパフォーマンスモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2023-08-02T20:08:59Z) - ICDAR 2023 Video Text Reading Competition for Dense and Small Text [61.138557702185274]
我々は,ビデオ中の高密度・小型のテキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを構築した。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
提案したDSTextには、12のオープンシナリオから100のビデオクリップが含まれており、2つのタスク(例えば、ビデオテキストトラッキング(Task 1)と、エンドツーエンドのビデオテキストスポッティング(Task2)をサポートする。
論文 参考訳(メタデータ) (2023-04-10T04:20:34Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Findings of the The RuATD Shared Task 2022 on Artificial Text Detection
in Russian [6.9244605050142995]
2022年に行われた対話評価イニシアチブの一環として組織されたロシア語における人工テキスト検出の共有タスクについて紹介する。
このデータセットには14のテキストジェネレータ、すなわち1人の人間ライターと13のテキスト生成モデルからのテキストが含まれている。
人書きのテキストは、複数のドメインにわたる公開リソースから収集される。
論文 参考訳(メタデータ) (2022-06-03T14:12:33Z) - SemEval-2020 Task 10: Emphasis Selection for Written Text in Visual
Media [50.29389719723529]
本稿では,SemEval-2020 Task 10, Emphasis Selection for Written Text in Visual Media の主な成果とその結果を比較した。
この共有タスクの目的は、強調選択のための自動メソッドを設計することである。
タスクに送信されたシステムの解析は、BERTとRoBERTaが、トレーニング済みモデルの最も一般的な選択であることを示している。
論文 参考訳(メタデータ) (2020-08-07T17:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。