Fugu-MT 論文翻訳(概要): M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection

論文の概要: M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection

arxiv url: http://arxiv.org/abs/2305.14902v2
Date: Sun, 10 Mar 2024 01:04:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 17:27:47.596100
Title: M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection
Title（参考訳）: m4:マルチジェネレータ、マルチドメイン、多言語ブラックボックスマシン生成テキスト検出
Authors: Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Chenxi Whitehouse, Osama Mohammed Afzal, Tarek Mahmoud, Toru Sasaki, Thomas Arnold, Alham Fikri Aji, Nizar Habash, Iryna Gurevych, Preslav Nakov
Abstract要約: 大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
参考スコア（独自算出の注目度）: 69.29017069438228
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capability to generate fluent responses to a wide variety of user queries. However, this has also raised concerns about the potential misuse of such texts in journalism, education, and academia. In this study, we strive to create automated systems that can detect machine-generated texts and pinpoint potential misuse. We first introduce a large-scale benchmark \textbf{M4}, which is a multi-generator, multi-domain, and multi-lingual corpus for machine-generated text detection. Through an extensive empirical study of this dataset, we show that it is challenging for detectors to generalize well on instances from unseen domains or LLMs. In such cases, detectors tend to misclassify machine-generated text as human-written. These results show that the problem is far from solved and that there is a lot of room for improvement. We believe that our dataset will enable future research towards more robust approaches to this pressing societal problem. The dataset is available at https://github.com/mbzuai-nlp/M4.
Abstract（参考訳）: 大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。しかし、このことはジャーナリズム、教育、アカデミアにおけるそのような文章の誤用の可能性にも懸念を抱いている。本研究では,機械生成テキストを検知し,誤用の可能性を見極める自動システムの構築に取り組んでいる。まず,機械生成テキスト検出のためのマルチジェネレータ,マルチドメイン,多言語コーパスである,大規模ベンチマーク \textbf{M4} を紹介する。このデータセットの広範な実証研究を通して、検出器が見えないドメインやLLMのインスタンスでうまく一般化することは困難であることを示す。このような場合、検出器は機械が生成したテキストを人間書きと誤分類する傾向がある。これらの結果から,解決には程遠い問題であり,改善の余地がたくさんあることが示唆された。我々のデータセットは、この押し付け社会問題に対するより堅牢なアプローチに向けた将来の研究を可能にすると信じている。データセットはhttps://github.com/mbzuai-nlp/m4で利用可能である。

関連論文リスト

mdok of KInIT: Robustly Fine-tuned LLM for Binary and Multiclass AI-Generated Text Detection [0.0]
自動検出は、人間が機械生成したテキストを表示するのを助けることができる。このノートは、テキスト分類のための微調整された小さなLLMに基づいて、ロバスト検出における我々のmdokアプローチを記述している。これは、Voight-Kampff Generative AI Detection 2025の両方のサブタスクに適用される。
論文参考訳（メタデータ） (2025-06-02T14:07:32Z)
GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge [71.69373986176839]
モデルが巨大な、固定された、多数のドメインとLLMから生成されたテキストを検出できるかどうかを問う。 3ヶ月の間に、23の検出器を提出した9つのチームによって、我々のタスクが試みられた。その結果, RAID から生成したテキストに対して, 5% の偽陽性率を維持しながら, 精度が 99% を超えることが判明した。
論文参考訳（メタデータ） (2025-01-15T16:21:09Z)
RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文参考訳（メタデータ） (2024-10-22T03:21:59Z)
AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文参考訳（メタデータ） (2024-10-21T02:19:24Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。細粒度検出のためのLLM-DetectAIveを提案する。 i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文参考訳（メタデータ） (2024-08-08T07:43:17Z)
SMLT-MUGC: Small, Medium, and Large Texts -- Machine versus User-Generated Content Detection and Comparison [2.7147912878168303]
我々は,(1)小規模(選挙,FIFA,ゲーム・オブ・スローンズからのツイート),(2)媒体(Wikipedia導入,PubMed要約),(3)大規模(OpenAI Webテキストデータセット)の4つのデータセットにおける機械学習アルゴリズムの性能を比較した。その結果,非常に大きなパラメータを持つLCM(例えば1542万パラメータを持つGPT2のXL-1542変種など)は,従来の機械学習手法による検出が困難であることが示唆された。言語学,人格,感情,偏見,道徳など,多次元にわたる人文・機械文の特徴について検討する。
論文参考訳（メタデータ） (2024-06-28T22:19:01Z)
M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-02-17T02:50:33Z)
Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。 MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文参考訳（メタデータ） (2023-05-29T15:25:00Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。