論文の概要: AI-Generated Text Detection in Low-Resource Languages: A Case Study on Urdu
- arxiv url: http://arxiv.org/abs/2510.16573v1
- Date: Sat, 18 Oct 2025 16:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.045605
- Title: AI-Generated Text Detection in Low-Resource Languages: A Case Study on Urdu
- Title(参考訳): 低リソース言語におけるAI生成テキスト検出:ウルドゥー語を事例として
- Authors: Muhammad Ammar, Hadiya Murad Hadi, Usman Majeed Butt,
- Abstract要約: 大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成することができるようになった。
これにより、テキストが人間によって書かれたのか、あるいは機械によって書かれたのかを知るのが難しくなる。
本稿では,Urdu言語に適した新しいAI生成テキスト検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are now capable of generating text that closely resembles human writing, making them powerful tools for content creation, but this growing ability has also made it harder to tell whether a piece of text was written by a human or by a machine. This challenge becomes even more serious for languages like Urdu, where there are very few tools available to detect AI-generated text. To address this gap, we propose a novel AI-generated text detection framework tailored for the Urdu language. A balanced dataset comprising 1,800 humans authored, and 1,800 AI generated texts, sourced from models such as Gemini, GPT-4o-mini, and Kimi AI was developed. Detailed linguistic and statistical analysis was conducted, focusing on features such as character and word counts, vocabulary richness (Type Token Ratio), and N-gram patterns, with significance evaluated through t-tests and MannWhitney U tests. Three state-of-the-art multilingual transformer models such as mdeberta-v3-base, distilbert-base-multilingualcased, and xlm-roberta-base were fine-tuned on this dataset. The mDeBERTa-v3-base achieved the highest performance, with an F1-score 91.29 and accuracy of 91.26% on the test set. This research advances efforts in contesting misinformation and academic misconduct in Urdu-speaking communities and contributes to the broader development of NLP tools for low resource languages.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の文章によく似たテキストを生成することができ、コンテンツ作成のための強力なツールとなっているが、この増大する能力により、あるテキストが人間によって書かれたか、あるいは機械によって書かれたかを知るのが難しくなった。
AI生成テキストを検出するツールがほとんどないUrduのような言語では、この課題はさらに深刻になる。
このギャップに対処するため,我々はUrdu言語に適した新しいAI生成テキスト検出フレームワークを提案する。
Gemini、GPT-4o-mini、Kimi AIといったモデルから得られた1,800人の著者と1,800人のAI生成したテキストからなるバランスのとれたデータセットを開発した。
詳細な言語学的・統計的分析を行い, 文字数, 単語数, 語彙豊かさ(タイプトケン比), N-gram パターンなどの特徴に着目し, t-test と MannWhitney U テストによる評価を行った。
mdeberta-v3-base, distilbert-base-multilingualcased, xlm-roberta-base の3つの最先端多言語トランスフォーマーモデルをこのデータセット上で微調整した。
mDeBERTa-v3ベースはF1スコア91.29と91.26%の精度で最高性能を達成した。
本研究は、ウルドゥー語コミュニティにおける誤情報や学術的不正行為に異議を唱える取り組みを進め、低資源言語のためのNLPツールの開発に貢献する。
関連論文リスト
- Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Intrinsic Dimension Estimation for Robust Detection of AI-Generated
Texts [22.852855047237153]
自然言語におけるフロートテキストの平均内在次元は、アルファベットベースの言語では9ドル、中国語では7ドル前後で推移している。
この特性により、スコアベースの人工テキスト検出器を構築することができる。
論文 参考訳(メタデータ) (2023-06-07T18:38:04Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。