論文の概要: ChatGpt Content detection: A new approach using xlm-roberta alignment
- arxiv url: http://arxiv.org/abs/2511.21009v1
- Date: Wed, 26 Nov 2025 03:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.943014
- Title: ChatGpt Content detection: A new approach using xlm-roberta alignment
- Title(参考訳): ChatGptコンテンツ検出: xlm-robertaアライメントを用いた新しいアプローチ
- Authors: Md Tasnin Tanvir, Dr Santanu Kumar Dash, Ishan Shahnan, Nafis Fuad, Tanvir Rahman, Abdullah Al Faisal, Asadullah Al Mamun,
- Abstract要約: 本稿では,最先端多言語変換モデルであるXLM-RoBERTaを用いて,AI生成テキストを検出するための包括的手法を提案する。
我々は、人間とAIが生成したテキストのバランスのとれたデータセット上でモデルを微調整し、その性能を評価した。
我々の発見は、学術的完全性を維持するための貴重なツールを提供し、AI倫理の幅広い分野に貢献する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of separating AI-generated text from human-authored content is becoming more urgent as generative AI technologies like ChatGPT become more widely available. In this work, we address this issue by looking at both the detection of content that has been entirely generated by AI and the identification of human text that has been reworded by AI. In our work, a comprehensive methodology to detect AI- generated text using XLM-RoBERTa, a state-of-the-art multilingual transformer model. Our approach includes rigorous preprocessing, and feature extraction involving perplexity, semantic, and readability features. We fine-tuned the XLM-RoBERTa model on a balanced dataset of human and AI-generated texts and evaluated its performance. The model demonstrated high accuracy and robust performance across various text genres. Additionally, we conducted feature analysis to understand the model's decision-making process, revealing that perplexity and attention-based features are critical in differentiating between human and AI-generated texts. Our findings offer a valuable tool for maintaining academic integrity and contribute to the broader field of AI ethics by promoting transparency and accountability in AI systems. Future research directions include exploring other advanced models and expanding the dataset to enhance the model's generalizability.
- Abstract(参考訳): AI生成したテキストを人間によるコンテンツから分離するという課題は、ChatGPTのような生成的AI技術がより広く利用できるようになるにつれ、さらに緊急になってきている。
本稿では,AIによって完全に生成されたコンテンツの検出と,AIによって再語られた人間のテキストの識別を両立させることにより,この問題に対処する。
本研究では,最先端多言語トランスモデルであるXLM-RoBERTaを用いて,AI生成テキストを検出するための包括的な手法を提案する。
我々のアプローチには、厳密な事前処理と、パープレキシティ、セマンティック、可読性といった特徴抽出が含まれる。
我々は,XLM-RoBERTaモデルを人間とAI生成テキストのバランスの取れたデータセット上で微調整し,その性能を評価した。
このモデルは様々なテキストジャンルで高い精度と堅牢な性能を示した。
さらに、モデルの意思決定プロセスを理解するために特徴分析を行い、人間とAI生成したテキストの識別にパープレキシティと注意に基づく特徴が重要であることを明らかにした。
我々の発見は、学術的完全性を維持するための貴重なツールを提供し、AIシステムの透明性と説明責任を促進することによって、AI倫理の幅広い分野に貢献する。
将来の研究の方向性には、他の高度なモデルを探究することや、モデルの一般化性を高めるためにデータセットを拡張することが含まれる。
関連論文リスト
- AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models [78.08374249341514]
AI生成コンテンツ(AIGC)の急速な発展は、誤情報を拡散するAIGIの誤用につながった。
大規模で包括的なデータセットであるHolmes-Setを導入し、画像がAI生成されているかどうかを解説したインストラクションチューニングデータセットを含む。
本研究は,MLLMの構造化説明と品質管理によるデータ生成を効率化する,Multi-Expert Juryと呼ばれる効率的なデータアノテーション手法を提案する。
さらに,視覚専門家による事前学習,教師付き微調整,直接選好最適化を含む3段階学習フレームワークであるHolmes Pipelineを提案する。
論文 参考訳(メタデータ) (2025-07-03T14:26:31Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Enhancing Text Authenticity: A Novel Hybrid Approach for AI-Generated Text Detection [8.149808049643344]
本稿では,TF-IDF技術と高度な機械学習モデルを組み合わせた新しいハイブリッド手法を提案する。
提案手法は既存手法と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-06-01T10:21:54Z) - Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。