論文の概要: SemEval-2024 Task 8: Weighted Layer Averaging RoBERTa for Black-Box Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2402.15873v2
- Date: Tue, 9 Apr 2024 10:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:27:41.010720
- Title: SemEval-2024 Task 8: Weighted Layer Averaging RoBERTa for Black-Box Machine-Generated Text Detection
- Title(参考訳): SemEval-2024 Task 8: Black-Box Machine-Generated Text Detectionのための平均RoBERTaの重み付きレイヤ
- Authors: Ayan Datta, Aryan Chandramania, Radhika Mamidi,
- Abstract要約: この文書には、SemEval 2024のTask 8: Multigenerator, Multi Domain, and Multilingual Black-Box Machine- generated Text Detection Subtask A (monolingual) and Bの手順への著者の提出の詳細が含まれている。
- 参考スコア(独自算出の注目度): 5.049812996253857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document contains the details of the authors' submission to the proceedings of SemEval 2024's Task 8: Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection Subtask A (monolingual) and B. Detection of machine-generated text is becoming an increasingly important task, with the advent of large language models (LLMs). In this paper, we lay out how using weighted averages of RoBERTa layers lets us capture information about text that is relevant to machine-generated text detection.
- Abstract(参考訳): この文書は、SemEval 2024のタスク8:マルチジェネレータ、マルチドメイン、およびマルチリンガルブラックボックスマシン生成テキスト検出サブタスクA(モノリンガル)とBの手順への著者の提出の詳細を含んでいる。
本稿では,RoBERTaレイヤの重み付け平均を用いて,機械生成テキスト検出に関連するテキストに関する情報を捕捉する方法について述べる。
関連論文リスト
- GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human [71.42669028683741]
我々は,Coling 2025におけるGenAIワークショップの一環として,バイナリマシン生成テキスト検出における共有タスクを提案する。
このタスクは、モノリンガル(英: Monolingual)とマルチリンガル(英: Multilingual)の2つのサブタスクから構成される。
本稿では,データの包括的概要,結果の概要,参加システムの詳細な説明,提出内容の詳細な分析について述べる。
論文 参考訳(メタデータ) (2025-01-19T11:11:55Z) - GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge [71.69373986176839]
モデルが巨大な、固定された、多数のドメインとLLMから生成されたテキストを検出できるかどうかを問う。
3ヶ月の間に、23の検出器を提出した9つのチームによって、我々のタスクが試みられた。
その結果, RAID から生成したテキストに対して, 5% の偽陽性率を維持しながら, 精度が 99% を超えることが判明した。
論文 参考訳(メタデータ) (2025-01-15T16:21:09Z) - Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。
本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文 参考訳(メタデータ) (2024-07-03T10:22:23Z) - SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text? [4.463184061618504]
我々はSemEval-2024タスク8「マルチジェネレータ、マルチドメイン、ブラックボックスマシン生成テキスト検出」を提出する。
我々のアプローチは、RoBERTaベースからの埋め込みと多様性機能の組み合わせに依存し、再サンプリングされたトレーニングセットを使用する。
その結果,本手法は未知のモデルや領域にまたがって一般化可能であり,精度は0.91であることがわかった。
論文 参考訳(メタデータ) (2024-04-08T13:05:02Z) - TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques [2.149586323955579]
大規模言語モデル(LLM)は、幅広いユーザクエリにまたがる流動的なコンテンツを生成する。
この能力は、誤情報や個人情報の漏洩に関する懸念を引き起こしている。
本稿では,SemEval2024 Task8に対する提案手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T10:09:03Z) - MasonTigers at SemEval-2024 Task 8: Performance Analysis of Transformer-based Models on Machine-Generated Text Detection [0.0]
タスクは、バイナリ人文対マシン生成テキスト分類(トラックA)、マルチウェイマシン生成テキスト分類(トラックB)、ヒューマン・マシン混合テキスト検出(トラックC)を含む。
本稿では,主に識別器変換器モデルのアンサンブルと,特定の事例における文変換器と統計的機械学習のアプローチを利用する。
論文 参考訳(メタデータ) (2024-03-22T06:47:28Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。