論文の概要: Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text
- arxiv url: http://arxiv.org/abs/2407.02978v1
- Date: Wed, 3 Jul 2024 10:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:45:33.549383
- Title: Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text
- Title(参考訳): Mast Kalandar - SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text
- Authors: Jainit Sushil Bafna, Hardik Mittal, Suyash Sethia, Manish Shrivastava, Radhika Mamidi,
- Abstract要約: SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。
本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
- 参考スコア(独自算出の注目度): 7.959800630494841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have showcased impressive abilities in generating fluent responses to diverse user queries. However, concerns regarding the potential misuse of such texts in journalism, educational, and academic contexts have surfaced. SemEval 2024 introduces the task of Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection, aiming to develop automated systems for identifying machine-generated text and detecting potential misuse. In this paper, we i) propose a RoBERTa-BiLSTM based classifier designed to classify text into two categories: AI-generated or human ii) conduct a comparative study of our model with baseline approaches to evaluate its effectiveness. This paper contributes to the advancement of automatic text detection systems in addressing the challenges posed by machine-generated text misuse. Our architecture ranked 46th on the official leaderboard with an accuracy of 80.83 among 125.
- Abstract(参考訳): 大きな言語モデル(LLM)は、多様なユーザクエリに対する流動的な応答を生成する素晴らしい能力を示しています。
しかし、ジャーナリズム、教育、学術的文脈におけるそのようなテキストの潜在的誤用に関する懸念が浮上している。
SemEval 2024はマルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入し、機械生成テキストを識別し、潜在的な誤用を検出する自動システムの開発を目指している。
本稿では,
i)RoBERTa-BiLSTMに基づくテキスト分類器の提案
二 ベースラインアプローチによるモデルの比較研究を行い、その有効性を評価すること。
本稿では,機械が生成したテキスト誤用による問題に対処する上で,自動テキスト検出システムの進歩に寄与する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
関連論文リスト
- RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - Sharif-MGTD at SemEval-2024 Task 8: A Transformer-Based Approach to Detect Machine Generated Text [2.2039952888743253]
MGTは自然言語処理において重要な研究領域となっている。
本研究では,強力なニューラルアーキテクチャであるRoBERTaベーストランスを微調整し,MGT検出に対処する効果について検討する。
提案システムでは,テストデータセットの78.9%の精度を達成し,参加者の57位に位置づけた。
論文 参考訳(メタデータ) (2024-07-16T14:33:01Z) - AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T06:25:47Z) - TrustAI at SemEval-2024 Task 8: A Comprehensive Analysis of Multi-domain Machine Generated Text Detection Techniques [2.149586323955579]
大規模言語モデル(LLM)は、幅広いユーザクエリにまたがる流動的なコンテンツを生成する。
この能力は、誤情報や個人情報の漏洩に関する懸念を引き起こしている。
本稿では,SemEval2024 Task8に対する提案手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T10:09:03Z) - Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。
提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文 参考訳(メタデータ) (2024-01-17T18:45:13Z) - Deliberate then Generate: Enhanced Prompting Framework for Text
Generation [70.10319005141888]
Deliberate then Generate (DTG) プロンプトフレームワークはエラー検出命令とエラーを含む可能性のある候補で構成されている。
我々は、要約、翻訳、対話など、7つのテキスト生成タスクにまたがる20以上のデータセットに関する広範な実験を行う。
本稿では,DTGが既存のプロンプト手法を一貫して上回り,複数のテキスト生成タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-05-31T13:23:04Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。