Fugu-MT 論文翻訳(概要): DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts

論文の概要: DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts

arxiv url: http://arxiv.org/abs/2405.10629v1
Date: Fri, 17 May 2024 08:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 16:32:42.323298
Title: DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts
Title（参考訳）: DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detectioning boundary of Machine-Generated Texts (英語)
Authors: Anastasia Voznyuk, Vasily Konovalov,
Abstract要約: DeBERTaV3の教師付き微調整のためのデータ拡張パイプラインを提案する。競争のリーダーボードによると、私たちはこのパイプラインで新しい最高のMAEスコアを受け取ります。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection shared task in the SemEval-2024 competition aims to tackle the problem of misusing collaborative human-AI writing. Although there are a lot of existing detectors of AI content, they are often designed to give a binary answer and thus may not be suitable for more nuanced problem of finding the boundaries between human-written and machine-generated texts, while hybrid human-AI writing becomes more and more popular. In this paper, we address the boundary detection problem. Particularly, we present a pipeline for augmenting data for supervised fine-tuning of DeBERTaV3. We receive new best MAE score, according to the leaderboard of the competition, with this pipeline.
Abstract（参考訳）: SemEval-2024コンペティションにおけるマルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出共有タスクは、協調AI書き込みを誤用する問題に対処することを目的としている。 AIコンテンツの既存の検出器は数多く存在するが、それらはバイナリな回答を与えるように設計されているため、人書きテキストと機械生成テキストの境界を見つけるためのより微妙な問題には適さないかもしれない。本稿では境界検出問題に対処する。特に,DeBERTaV3の教師付き微調整のためのデータ拡張パイプラインを提案する。競争のリーダーボードによると、私たちはこのパイプラインで新しい最高のMAEスコアを受け取ります。

関連論文リスト

HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring [14.887491317701997]
本稿では,人間-AI共著者によるMGT検出の可能性について検討する。より微細な検出器は、数値AI比で、共認可されたテキスト検出への経路を舗装することができることを示唆する。実験結果から, 平均F1スコア0.462において, 計量法は微粒度検出に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-06-03T14:52:44Z)
Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
誤分類は、偽の盗作行為の告発や、オンラインコンテンツにおけるAIの普及に関する誤解を招く可能性がある。我々は、AI-Polished-Text Evaluationデータセットを用いて、最先端の11のAIテキスト検出を体系的に評価した。我々の発見によると、検出器は、最小限に磨き上げられたテキストをAI生成と誤分類し、AIの関与度を区別し、古いモデルと小さなモデルに偏見を示す。
論文参考訳（メタデータ） (2025-02-21T18:45:37Z)
GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge [71.69373986176839]
モデルが巨大な、固定された、多数のドメインとLLMから生成されたテキストを検出できるかどうかを問う。 3ヶ月の間に、23の検出器を提出した9つのチームによって、我々のタスクが試みられた。その結果, RAID から生成したテキストに対して, 5% の偽陽性率を維持しながら, 精度が 99% を超えることが判明した。
論文参考訳（メタデータ） (2025-01-15T16:21:09Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
MOSAIC: Multiple Observers Spotting AI Content, a Robust Approach to Machine-Generated Text Detection [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。人文テキストから人工的に生成されたものを自動判別する様々な提案がなされている。それぞれの強みを組み合わせるための、理論上は新たなアプローチを導出します。種々のジェネレータLSMを用いた実験により,本手法がロバスト検出性能を効果的に導くことが示唆された。
論文参考訳（メタデータ） (2024-09-11T20:55:12Z)
Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-12T15:44:56Z)
Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文参考訳（メタデータ） (2024-07-03T10:22:23Z)
M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-02-17T02:50:33Z)
AI-generated text boundary detection with RoFT [7.2286849324485445]
テキストの書き起こし部分と機械生成部分の境界を検出する方法について検討する。特に,境界検出に対するパープレキシティに基づくアプローチは,RoBERTaモデルの教師付き微調整よりも,ドメイン固有データの特異性に頑健であることがわかった。
論文参考訳（メタデータ） (2023-11-14T17:48:19Z)
Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (2023-10-23T18:11:32Z)
Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid Essay in Education [10.606131520965604]
本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
論文参考訳（メタデータ） (2023-07-23T08:47:51Z)
M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文参考訳（メタデータ） (2023-05-24T08:55:11Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。