Fugu-MT 論文翻訳(概要): Exploring the Limitations of Detecting Machine-Generated Text

論文の概要: Exploring the Limitations of Detecting Machine-Generated Text

arxiv url: http://arxiv.org/abs/2406.11073v2
Date: Thu, 12 Dec 2024 06:44:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:55.787107
Title: Exploring the Limitations of Detecting Machine-Generated Text
Title（参考訳）: 機械生成テキストの検出限界の探索
Authors: Jad Doughman, Osama Mohammed Afzal, Hawau Olamide Toyin, Shady Shehata, Preslav Nakov, Zeerak Talat,
Abstract要約: テキストスタイルの異なるテキストで評価することで,機械生成テキストの検出のための分類性能を監査する。分類器は文体的変化やテキストの複雑さの違いに非常に敏感であることがわかった。今後の作業は、人書きテキストや機械生成テキストの文体的要因や難読度に対応することを推奨する。
参考スコア（独自算出の注目度）: 29.06307663406079
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent improvements in the quality of the generations by large language models have spurred research into identifying machine-generated text. Such work often presents high-performing detectors. However, humans and machines can produce text in different styles and domains, yet the performance impact of such on machine generated text detection systems remains unclear. In this paper, we audit the classification performance for detecting machine-generated text by evaluating on texts with varying writing styles. We find that classifiers are highly sensitive to stylistic changes and differences in text complexity, and in some cases degrade entirely to random classifiers. We further find that detection systems are particularly susceptible to misclassify easy-to-read texts while they have high performance for complex texts, leading to concerns about the reliability of detection systems. We recommend that future work attends to stylistic factors and reading difficulty levels of human-written and machine-generated text.
Abstract（参考訳）: 大規模言語モデルによる世代品質の最近の改善は、機械生成テキストの同定の研究を刺激している。このような研究は、しばしば高い性能の検出器を提示する。しかし、人や機械は、異なるスタイルや領域でテキストを生成できるが、そのようなテキスト検出システムの性能への影響は未定である。本稿では,テキストの書き方の違いを評価した結果,機械が生成したテキストを検出するための分類性能を監査する。分類器は文体的変化やテキストの複雑さの違いに非常に敏感であり、場合によっては無作為な分類器に分解される。さらに、検出システムは、複雑なテキストに対して高い性能を保ちながら、読みやすいテキストを誤分類する可能性があり、検出システムの信頼性に懸念が生じる。今後の作業は、人書きテキストや機械生成テキストの文体的要因や難読度に対応することを推奨する。

関連論文リスト

Mixture of Detectors: A Compact View of Machine-Generated Text Detection [2.4013793000097103]
本稿では,文書レベルのバイナリやマルチクラス分類,ジェネレータ属性など,複数のシナリオにわたる機械生成テキストの検出に対処する。 BMAS Englishと呼ばれる新しい研究は、人文と機械文のバイナリ分類のための英語データセット、マルチクラス分類のための、そして検出の緩和のための共通の行為であるアドリアックアタックアタックアタック(Adrial attack addressing)である。
論文参考訳（メタデータ） (2025-09-26T10:05:22Z)
RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文参考訳（メタデータ） (2024-10-22T03:21:59Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors [24.954755569786396]
AIテキスト検出は、人間と機械が生成したコンテンツを区別するために現れた。近年の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別する難しさを欠いていることが示されている。我々の研究は、非公式な文章と専門的な文章の両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。
論文参考訳（メタデータ） (2024-06-13T08:37:01Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文参考訳（メタデータ） (2024-01-17T18:45:13Z)
Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。トピックと検出性能の間に有意な相関関係が発見された。これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文参考訳（メタデータ） (2023-12-20T10:53:53Z)
AI-generated text boundary detection with RoFT [7.2286849324485445]
テキストの書き起こし部分と機械生成部分の境界を検出する方法について検討する。特に,境界検出に対するパープレキシティに基づくアプローチは,RoBERTaモデルの教師付き微調整よりも,ドメイン固有データの特異性に頑健であることがわかった。
論文参考訳（メタデータ） (2023-11-14T17:48:19Z)
Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2023-07-25T20:24:22Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文参考訳（メタデータ） (2021-04-02T14:34:41Z)
RoFT: A Tool for Evaluating Human Detection of Machine-Generated Text [25.80571756447762]
われわれはReal or Fake Text (RoFT)を紹介した。本稿では,RoFTを用いたニュース記事の検出結果について述べる。
論文参考訳（メタデータ） (2020-10-06T22:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。