論文の概要: Mixture of Detectors: A Compact View of Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2509.22147v1
- Date: Fri, 26 Sep 2025 10:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.358289
- Title: Mixture of Detectors: A Compact View of Machine-Generated Text Detection
- Title(参考訳): 検知器の混合:機械によるテキスト検出のコンパクトな視点
- Authors: Sai Teja Lekkala, Yadagiri Annepaka, Arun Kumar Challa, Samatha Reddy Machireddy, Partha Pakray, Chukhu Chunka,
- Abstract要約: 本稿では,文書レベルのバイナリやマルチクラス分類,ジェネレータ属性など,複数のシナリオにわたる機械生成テキストの検出に対処する。
BMAS Englishと呼ばれる新しい研究は、人文と機械文のバイナリ分類のための英語データセット、マルチクラス分類のための、そして検出の緩和のための共通の行為であるアドリアックアタックアタックアタック(Adrial attack addressing)である。
- 参考スコア(独自算出の注目度): 2.4013793000097103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are gearing up to surpass human creativity. The veracity of the statement needs careful consideration. In recent developments, critical questions arise regarding the authenticity of human work and the preservation of their creativity and innovative abilities. This paper investigates such issues. This paper addresses machine-generated text detection across several scenarios, including document-level binary and multiclass classification or generator attribution, sentence-level segmentation to differentiate between human-AI collaborative text, and adversarial attacks aimed at reducing the detectability of machine-generated text. We introduce a new work called BMAS English: an English language dataset for binary classification of human and machine text, for multiclass classification, which not only identifies machine-generated text but can also try to determine its generator, and Adversarial attack addressing where it is a common act for the mitigation of detection, and Sentence-level segmentation, for predicting the boundaries between human and machine-generated text. We believe that this paper will address previous work in Machine-Generated Text Detection (MGTD) in a more meaningful way.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の創造性を超えようとしている。
その声明の正確さは慎重に検討する必要がある。
近年の進歩では、人間の仕事の正しさと創造性と革新的な能力の保存について批判的な疑問が持ち上がっている。
本稿ではそのような問題を考察する。
本稿では,文書レベルのバイナリとマルチクラス分類やジェネレータ属性,人間とAIの協調テキストを区別する文レベルのセグメンテーション,機械生成テキストの検出可能性の低減を目的とした敵攻撃など,さまざまなシナリオにおける機械生成テキストの検出について述べる。
人文と機械文のバイナリ分類のための英語データセットであるBMAS Englishを導入する。これは、機械生成テキストを識別するだけでなく、その生成元を判定することも可能であり、また、人間と機械生成テキストの境界を予測するための文レベルセグメンテーション(Sentence-level segmentation)の共通行為であるAdversarial attack addressing(Adversarial attack addressing)も導入する。
我々は,機械生成テキスト検出(MGTD)における過去の研究を,より意味のある方法で解決すると考えている。
関連論文リスト
- RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Exploring the Limitations of Detecting Machine-Generated Text [29.06307663406079]
テキストスタイルの異なるテキストで評価することで,機械生成テキストの検出のための分類性能を監査する。
分類器は文体的変化やテキストの複雑さの違いに非常に敏感であることがわかった。
今後の作業は、人書きテキストや機械生成テキストの文体的要因や難読度に対応することを推奨する。
論文 参考訳(メタデータ) (2024-06-16T21:02:02Z) - Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。
提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文 参考訳(メタデータ) (2024-01-17T18:45:13Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。