論文の概要: LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2408.04284v2
- Date: Mon, 21 Oct 2024 11:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:22:45.571192
- Title: LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection
- Title(参考訳): LLM-DetectAIve:微細加工によるテキスト検出ツール
- Authors: Mervat Abassy, Kareem Elozeiri, Alexander Aziz, Minh Ngoc Ta, Raj Vardhan Tomar, Bimarsha Adhikari, Saad El Dine Ahmed, Yuxia Wang, Osama Mohammed Afzal, Zhuohan Xie, Jonibek Mansurov, Ekaterina Artemova, Vladislav Mikhailov, Rui Xing, Jiahui Geng, Hasan Iqbal, Zain Muhammad Mujahid, Tarek Mahmoud, Akim Tsvigun, Alham Fikri Aji, Artem Shelmanov, Nizar Habash, Iryna Gurevych, Preslav Nakov,
- Abstract要約: テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
- 参考スコア(独自算出の注目度): 87.43727192273772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ease of access to large language models (LLMs) has enabled a widespread of machine-generated texts, and now it is often hard to tell whether a piece of text was human-written or machine-generated. This raises concerns about potential misuse, particularly within educational and academic domains. Thus, it is important to develop practical systems that can automate the process. Here, we present one such system, LLM-DetectAIve, designed for fine-grained detection. Unlike most previous work on machine-generated text detection, which focused on binary classification, LLM-DetectAIve supports four categories: (i) human-written, (ii) machine-generated, (iii) machine-written, then machine-humanized, and (iv) human-written, then machine-polished. Category (iii) aims to detect attempts to obfuscate the fact that a text was machine-generated, while category (iv) looks for cases where the LLM was used to polish a human-written text, which is typically acceptable in academic writing, but not in education. Our experiments show that LLM-DetectAIve can effectively identify the above four categories, which makes it a potentially useful tool in education, academia, and other domains. LLM-DetectAIve is publicly accessible at https://github.com/mbzuai-nlp/LLM-DetectAIve. The video describing our system is available at https://youtu.be/E8eT_bE7k8c.
- Abstract(参考訳): 大規模言語モデル(LLM)へのアクセスの容易さにより、機械が生成したテキストが広く利用できるようになった。
これは潜在的な誤用、特に教育や学術分野における懸念を引き起こす。
したがって、プロセスの自動化が可能な実用的なシステムを開発することが重要である。
そこで本研究では, 微細な検出が可能なLLM-DetectAIveを提案する。
LLM-DetectAIveは、バイナリ分類に焦点を当てたマシン生成テキスト検出に関するこれまでのほとんどの研究とは異なり、以下の4つのカテゴリをサポートしている。
(i)人書き
(ii)機械生成
三 機械書記し、次いで機械人文化し、
(四) 人書き、次いで機械処理。
カテゴリー
三 テキストが機械生成されたという事実を難読化しようとする試みを検出すること。
(iv) LLM が人文テキストの研磨に使用された事例を, 学術書記では通用するが, 教育では認められない。
LLM-DetectAIveは上記の4つのカテゴリを効果的に識別し,教育,アカデミック,その他の領域において有用なツールである可能性が示唆された。
LLM-DetectAIveはhttps://github.com/mbzuai-nlp/LLM-DetectAIveで公開されている。
私たちのシステムを説明するビデオはhttps://youtu.be/E8eT_bE7k8cで公開されている。
関連論文リスト
- Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection [39.62360229183229]
大規模言語モデル (LLM) はテキスト生成に革命をもたらした。
機械生成テキストの検出はますます困難になっている。
ImBD(Imitate Before Detect)アプローチを提案する。
次に、テスト対象のテキストの分布とマシンスタイルの分布を比較し、そのテキストが機械修正されたかどうかを判定する。
論文 参考訳(メタデータ) (2024-12-11T03:17:14Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - MOSAIC: Multiple Observers Spotting AI Content, a Robust Approach to Machine-Generated Text Detection [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
人文テキストから人工的に生成されたものを自動判別する様々な提案がなされている。
それぞれの強みを組み合わせるための、理論上は新たなアプローチを導出します。
種々のジェネレータLSMを用いた実験により,本手法がロバスト検出性能を効果的に導くことが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising [4.924903495092775]
大きな言語モデル(LLM)は、人間の文章を忠実に模倣するテキストを作成し、潜在的に誤用につながる可能性がある。
本稿では,機械生成テキストと人文テキストを区別する効率的な分類器であるAuthentiGPTを提案する。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示した。
論文 参考訳(メタデータ) (2023-11-13T19:36:54Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。