論文の概要: Who Wrote This? Identifying Machine vs Human-Generated Text in Hausa
- arxiv url: http://arxiv.org/abs/2503.13101v1
- Date: Mon, 17 Mar 2025 12:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:00.455544
- Title: Who Wrote This? Identifying Machine vs Human-Generated Text in Hausa
- Title(参考訳): ハウサ語で「機械」と「人文」を区別する
- Authors: Babangida Sani, Aakansha Soy, Sukairaj Hafiz Imam, Ahmad Mustapha, Lukman Jibril Aliyu, Idris Abdulmumin, Ibrahim Said Ahmad, Shamsuddeen Hassan Muhammad,
- Abstract要約: ハウサで人間と機械が生成するコンテンツを区別できる最初の大規模検出器を開発した。
AfriXLMRは99.23%、F1スコア99.21%で最高性能を達成した。
- 参考スコア(独自算出の注目度): 2.303135660004888
- License:
- Abstract: The advancement of large language models (LLMs) has allowed them to be proficient in various tasks, including content generation. However, their unregulated usage can lead to malicious activities such as plagiarism and generating and spreading fake news, especially for low-resource languages. Most existing machine-generated text detectors are trained on high-resource languages like English, French, etc. In this study, we developed the first large-scale detector that can distinguish between human- and machine-generated content in Hausa. We scrapped seven Hausa-language media outlets for the human-generated text and the Gemini-2.0 flash model to automatically generate the corresponding Hausa-language articles based on the human-generated article headlines. We fine-tuned four pre-trained Afri-centric models (AfriTeVa, AfriBERTa, AfroXLMR, and AfroXLMR-76L) on the resulting dataset and assessed their performance using accuracy and F1-score metrics. AfroXLMR achieved the highest performance with an accuracy of 99.23% and an F1 score of 99.21%, demonstrating its effectiveness for Hausa text detection. Our dataset is made publicly available to enable further research.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩により、コンテンツ生成など様々なタスクに長けている。
しかし、それらの規制されていない使用法は、特に低リソース言語において、盗作や偽ニュースの生成や拡散などの悪意ある活動を引き起こす可能性がある。
既存の機械生成テキスト検出器の多くは、英語、フランス語などの高リソース言語で訓練されている。
本研究では,ハウサにおける人体と機械生成物の区別が可能な,最初の大規模検出器を開発した。
我々は、人文生成テキストとGemini-2.0フラッシュモデルのために、7つのハウサ語メディアをスクラップし、人文生成記事の見出しに基づいて対応するハウサ語記事を自動的に生成した。
AfriTeVa, AfriBERTa, AfroXLMR, AfroXLMR-76Lの4つの事前学習型Afri中心モデルのデータセットを微調整し, 精度とF1スコア測定値を用いて評価した。
AfroXLMRは99.23%、F1スコア99.21%の精度で最高性能を達成し、ハウサ文字検出の有効性を示した。
我々のデータセットは、さらなる研究を可能にするために公開されています。
関連論文リスト
- AI-generated Text Detection with a GLTR-based Approach [0.5524804393257919]
Giant Language Model Test Roomは、GPT-2に基づく機械生成テキストの検出を支援するビジュアルツールである。
GLTRの制限の一つは、それが返される結果が曖昧になり、混乱を招くことがあることである。
本研究の目的は、IberLef-AuTexTification 2023共有タスクのコンテキスト内で、AI生成テキストを検出するGLTRの有効性を改善するための様々な方法を検討することである。
論文 参考訳(メタデータ) (2025-02-17T17:32:55Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Hausa Visual Genome: A Dataset for Multi-Modal English to Hausa Machine
Translation [0.7536909803290599]
この研究は、Hausa Visual Genome (HaVG) を提示する。
データセットは32,923の画像とそれらの記述からなり、トレーニング、開発、テスト、チャレンジテストセットに分けられる。
HaVGはその種類の最初のデータセットであり、ハウサ・イングリッシュ機械翻訳、マルチモーダル・リサーチ、画像記述に使用することができる。
論文 参考訳(メタデータ) (2022-05-02T18:05:35Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。