論文の概要: Detecting AI-Generated Paraphrases in Bengali: A Comparative Study of Zero-Shot and Fine-Tuned Transformers
- arxiv url: http://arxiv.org/abs/2512.21709v1
- Date: Thu, 25 Dec 2025 15:04:29 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:36.886964
- Title: Detecting AI-Generated Paraphrases in Bengali: A Comparative Study of Zero-Shot and Fine-Tuned Transformers
- Title(参考訳): ベンガル語におけるAI生成パラフレーズの検出:ゼロショットと微調整変圧器の比較検討
- Authors: Md. Rakibul Islam, Most. Sharmin Sultana Samu, Md. Zahid Hossain, Farhad Uz Zaman, Md. Kamrozzaman Bhuiyan,
- Abstract要約: 大型言語モデル(LLM)は、人間の文章によく似たテキストを生成することができる。
この機能は、偽情報やコンテンツ操作など、誤用に関する懸念を引き起こす。
既存の研究は複数の言語における検出に対処してきたが、ベンガル語はほとんど探索されていない。
本研究では,XLMRoBERTa-Large,mDeBERTaV3-Base,BanglaBERT-Base,IndicBERT-Base,MultilingualBERT-Baseの5つの変圧器モデルについて検討した。
- 参考スコア(独自算出の注目度): 0.2446672595462589
- License:
- Abstract: Large language models (LLMs) can produce text that closely resembles human writing. This capability raises concerns about misuse, including disinformation and content manipulation. Detecting AI-generated text is essential to maintain authenticity and prevent malicious applications. Existing research has addressed detection in multiple languages, but the Bengali language remains largely unexplored. Bengali's rich vocabulary and complex structure make distinguishing human-written and AI-generated text particularly challenging. This study investigates five transformer-based models: XLMRoBERTa-Large, mDeBERTaV3-Base, BanglaBERT-Base, IndicBERT-Base and MultilingualBERT-Base. Zero-shot evaluation shows that all models perform near chance levels (around 50% accuracy) and highlight the need for task-specific fine-tuning. Fine-tuning significantly improves performance, with XLM-RoBERTa, mDeBERTa and MultilingualBERT achieving around 91% on both accuracy and F1-score. IndicBERT demonstrates comparatively weaker performance, indicating limited effectiveness in fine-tuning for this task. This work advances AI-generated text detection in Bengali and establishes a foundation for building robust systems to counter AI-generated content.
- Abstract(参考訳): 大型言語モデル(LLM)は、人間の文章によく似たテキストを生成することができる。
この機能は、偽情報やコンテンツ操作など、誤用に関する懸念を引き起こす。
AI生成テキストの検出は、信頼性を維持し、悪意のあるアプリケーションを防ぐために不可欠である。
既存の研究は複数の言語における検出に対処してきたが、ベンガル語はほとんど探索されていない。
ベンガル語の豊富な語彙と複雑な構造は、人間による文章とAIによるテキストの区別を特に困難にしている。
本研究では,XLMRoBERTa-Large,mDeBERTaV3-Base,BanglaBERT-Base,IndicBERT-Base,MultilingualBERT-Baseの5つの変圧器モデルについて検討した。
ゼロショット評価は、すべてのモデルがほぼチャンスレベル(約50%の精度)で動作し、タスク固有の微調整の必要性を強調していることを示している。
XLM-RoBERTa、mDeBERTa、MultilingualBERTは精度とF1スコアの両方で約91%向上した。
IndicBERTは、比較的弱い性能を示し、このタスクの微調整の有効性を限定している。
この研究は、ベンガルのAI生成テキスト検出を推進し、AI生成コンテンツに対抗する堅牢なシステムを構築する基盤を確立する。
関連論文リスト
- AI-Generated Text Detection in Low-Resource Languages: A Case Study on Urdu [0.0]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成することができるようになった。
これにより、テキストが人間によって書かれたのか、あるいは機械によって書かれたのかを知るのが難しくなる。
本稿では,Urdu言語に適した新しいAI生成テキスト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-18T16:45:25Z) - AI Generated Text Detection Using Instruction Fine-tuned Large Language and Transformer-Based Models [0.2796197251957245]
大規模言語モデル (LLM) は文法的に正し、意味的に意味のあるテキストを生成する。
LLMは、非常に現実的なフィッシングメールの作成、フェイクニュースの拡散、サイバー犯罪の自動化のためのコードの生成、不正な科学論文の執筆に誤用されている。
言語、統計、機械学習、アンサンブルに基づくアプローチを用いて、機械が生成したテキストと人間によるコンテンツとを区別する様々な試みがなされている。
論文 参考訳(メタデータ) (2025-07-07T16:13:13Z) - AI-generated Text Detection: A Multifaceted Approach to Binary and Multiclass Classification [0.13392361199400257]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
このような機能は、偽ニュース生成、スパムメールの作成、学術的課題における誤用など、潜在的な誤用につながる。
最適化されたモデルとより単純なバリエーションの2つのニューラルアーキテクチャを提案する。
タスクAでは、最適化されたニューラルアーキテクチャが0.994ドルのF1$スコアで5位、タスクBでは、単純なニューラルアーキテクチャが0.627のF1$スコアで5位にランクインした。
論文 参考訳(メタデータ) (2025-05-15T09:28:06Z) - LuxVeri at GenAI Detection Task 1: Inverse Perplexity Weighted Ensemble for Robust Detection of AI-Generated Text across English and Multilingual Contexts [0.8495482945981923]
本稿では,AI生成コンテンツの検出に関するコリング2025ワークショップのタスク1のために開発されたシステムについて述べる。
提案手法では,各モデルの逆パープレキシティに応じて重みが割り当てられたモデルのアンサンブルを利用して,分類精度を向上させる。
本研究は, 単言語と多言語の両方において, 機械によるテキスト検出の堅牢性を向上させるために, 逆パープレキシティ重み付けの有効性を示すものである。
論文 参考訳(メタデータ) (2025-01-21T06:32:32Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。