論文の概要: Findings of the The RuATD Shared Task 2022 on Artificial Text Detection
in Russian
- arxiv url: http://arxiv.org/abs/2206.01583v1
- Date: Fri, 3 Jun 2022 14:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 18:57:16.814855
- Title: Findings of the The RuATD Shared Task 2022 on Artificial Text Detection
in Russian
- Title(参考訳): ロシアにおける人工テキスト検出におけるRuATD共有タスク2022の発見
- Authors: Tatiana Shamardina, Vladislav Mikhailov, Daniil Chernianskii, Alena
Fenogenova, Marat Saidov, Anastasiya Valeeva, Tatiana Shavrina, Ivan Smurov,
Elena Tutubalina, Ekaterina Artemova
- Abstract要約: 2022年に行われた対話評価イニシアチブの一環として組織されたロシア語における人工テキスト検出の共有タスクについて紹介する。
このデータセットには14のテキストジェネレータ、すなわち1人の人間ライターと13のテキスト生成モデルからのテキストが含まれている。
人書きのテキストは、複数のドメインにわたる公開リソースから収集される。
- 参考スコア(独自算出の注目度): 6.9244605050142995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the shared task on artificial text detection in Russian, which is
organized as a part of the Dialogue Evaluation initiative, held in 2022. The
shared task dataset includes texts from 14 text generators, i.e., one human
writer and 13 text generative models fine-tuned for one or more of the
following generation tasks: machine translation, paraphrase generation, text
summarization, text simplification. We also consider back-translation and
zero-shot generation approaches. The human-written texts are collected from
publicly available resources across multiple domains. The shared task consists
of two sub-tasks: (i) to determine if a given text is automatically generated
or written by a human; (ii) to identify the author of a given text. The first
task is framed as a binary classification problem. The second task is a
multi-class classification problem. We provide count-based and BERT-based
baselines, along with the human evaluation on the first sub-task. A total of 30
and 8 systems have been submitted to the binary and multi-class sub-tasks,
correspondingly. Most teams outperform the baselines by a wide margin. We
publicly release our codebase, human evaluation results, and other materials in
our GitHub repository (https://github.com/dialogue-evaluation/RuATD).
- Abstract(参考訳): 2022年に行われた対話評価イニシアチブの一環として組織されたロシア語における人工テキスト検出の共有タスクについて述べる。
共有タスクデータセットは、14のテキストジェネレータ、すなわち、機械翻訳、パラフレーズ生成、テキスト要約、テキスト単純化の1つ以上のタスクに対して微調整された1つの人間ライターと13のテキスト生成モデルからのテキストを含む。
バックトランスレーションとゼロショット生成のアプローチも検討する。
人書きテキストは、複数のドメインにわたる公開リソースから収集される。
共有タスクは2つのサブタスクで構成される。
(i) あるテキストが自動生成されているか、又は人間が書いたものであるかを決定すること。
(ii)所定のテキストの著者を特定すること。
最初のタスクはバイナリ分類問題としてフレーム化される。
第2のタスクは、マルチクラス分類問題である。
カウントベースおよびBERTベースのベースラインと,第1サブタスクに対する人間による評価を提供する。
合計30と8のシステムがバイナリとマルチクラスのサブタスクに送信され、対応する。
ほとんどのチームは、ベースラインを大きく上回っている。
GitHubリポジトリ(https://github.com/dialogue-evaluation/RuATD)にコードベース、人間評価結果、その他の資料を公開しています。
関連論文リスト
- GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human [71.42669028683741]
我々は,Coling 2025におけるGenAIワークショップの一環として,バイナリマシン生成テキスト検出における共有タスクを提案する。
このタスクは、モノリンガル(英: Monolingual)とマルチリンガル(英: Multilingual)の2つのサブタスクから構成される。
本稿では,データの包括的概要,結果の概要,参加システムの詳細な説明,提出内容の詳細な分析について述べる。
論文 参考訳(メタデータ) (2025-01-19T11:11:55Z) - GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge [71.69373986176839]
モデルが巨大な、固定された、多数のドメインとLLMから生成されたテキストを検出できるかどうかを問う。
3ヶ月の間に、23の検出器を提出した9つのチームによって、我々のタスクが試みられた。
その結果, RAID から生成したテキストに対して, 5% の偽陽性率を維持しながら, 精度が 99% を超えることが判明した。
論文 参考訳(メタデータ) (2025-01-15T16:21:09Z) - Advacheck at GenAI Detection Task 1: AI Detection Powered by Domain-Aware Multi-Tasking [0.0]
本稿では,GenAI検出タスク1コンペティションのモノリンガルサブタスクにおいて,機械生成テキストと人文テキストを認識できるようにAdvacheckチームが設計したシステムについて述べる。
開発したシステムはマルチタスクアーキテクチャであり,複数の分類ヘッド間で共用トランスフォーマーを備える。
論文 参考訳(メタデータ) (2024-11-18T17:03:30Z) - SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - Overview of AuTexTification at IberLEF 2023: Detection and Attribution
of Machine-Generated Text in Multiple Domains [6.44756483013808]
本稿では,IberleF 2023 Workshop in Iberian Languages Evaluation Forumの一環として,AuTexTificationタスクの概要を紹介する。
AuTexTificationデータセットには、2つの言語(英語とスペイン語)と5つのドメイン(ツイート、レビュー、ニュース、法律、ハウツー記事)に160万以上のテキストが含まれています。
合計114チームが参加し、うち36チームが175回、20チームがワークノートを送付した。
論文 参考訳(メタデータ) (2023-09-20T13:10:06Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - niksss at HinglishEval: Language-agnostic BERT-based Contextual
Embeddings with Catboost for Quality Evaluation of the Low-Resource
Synthetically Generated Code-Mixed Hinglish Text [0.0]
本稿では,INLG 2022におけるHinglishEvalチャレンジのシステム記述について述べる。
本研究の目的は,コード混合テキスト生成システムの品質に影響を及ぼす要因について検討することであった。
論文 参考訳(メタデータ) (2022-06-17T17:36:03Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Robust Conversational AI with Grounded Text Generation [77.56950706340767]
GTGは、大規模なTransformerニューラルネットワークをバックボーンとして使用するハイブリッドモデルである。
タスク完了のための対話的信念状態と実世界の知識に基づく応答を生成する。
論文 参考訳(メタデータ) (2020-09-07T23:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。