論文の概要: The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text
- arxiv url: http://arxiv.org/abs/2505.23276v2
- Date: Wed, 04 Jun 2025 15:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.46646
- Title: The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text
- Title(参考訳): アラビア語のAIフィンガープリント:大言語モデルテキストのスティロメトリ分析と検出
- Authors: Maged S. Al-Shaibani, Moataz Ahmed,
- Abstract要約: 大型言語モデル(LLM)は、人間のようなテキストを生成する際、前例のない能力を達成した。
本稿ではアラビア語機械生成テキストの包括的調査について述べる。
我々は,形式的文脈における異常な性能を実現するBERTに基づく検出モデルを開発した。
- 参考スコア(独自算出の注目度): 0.05399757380241794
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved unprecedented capabilities in generating human-like text, posing subtle yet significant challenges for information integrity across critical domains, including education, social media, and academia, enabling sophisticated misinformation campaigns, compromising healthcare guidance, and facilitating targeted propaganda. This challenge becomes severe, particularly in under-explored and low-resource languages like Arabic. This paper presents a comprehensive investigation of Arabic machine-generated text, examining multiple generation strategies (generation from the title only, content-aware generation, and text refinement) across diverse model architectures (ALLaM, Jais, Llama, and GPT-4) in academic, and social media domains. Our stylometric analysis reveals distinctive linguistic patterns differentiating human-written from machine-generated Arabic text across these varied contexts. Despite their human-like qualities, we demonstrate that LLMs produce detectable signatures in their Arabic outputs, with domain-specific characteristics that vary significantly between different contexts. Based on these insights, we developed BERT-based detection models that achieved exceptional performance in formal contexts (up to 99.9\% F1-score) with strong precision across model architectures. Our cross-domain analysis confirms generalization challenges previously reported in the literature. To the best of our knowledge, this work represents the most comprehensive investigation of Arabic machine-generated text to date, uniquely combining multiple prompt generation methods, diverse model architectures, and in-depth stylometric analysis across varied textual domains, establishing a foundation for developing robust, linguistically-informed detection systems essential for preserving information integrity in Arabic-language contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育、ソーシャルメディア、アカデミアを含む重要な領域における情報の整合性に関する微妙ながら重要な課題を提起し、洗練された誤情報キャンペーンを可能にし、医療指導を推進し、標的となるプロパガンダを促進するという、人類のようなテキストを生成するという前例のない能力を達成した。
この課題は、特にアラビア語のような未探索で低リソースの言語で深刻になる。
本稿では,学術・ソーシャルメディア分野における多種多様なモデルアーキテクチャ(ALLaM, Jais, Llama, GPT-4)の多世代化戦略(タイトルオンリー, コンテンツアウェア生成, テキストリファインメント)を総合的に検討する。
文体分析により,これらの文脈にまたがって,機械生成のアラビア文字と人文を区別する言語学的特徴が明らかになった。
人間のような性質にもかかわらず、LLMがアラビアの出力で検出可能なシグネチャを生成することを示す。
これらの知見に基づいて,形式的な文脈(最大99.9\% F1スコア)で優れた性能を達成できるBERTベースの検出モデルを開発した。
文献で報告された一般化課題について,クロスドメイン分析で確認した。
我々の知る限り、この研究はアラビア語で書かれたテキストの最も包括的な調査であり、複数のプロンプト生成方法、多様なモデルアーキテクチャ、多種多様なテキスト領域にわたる詳細なテクスチャ分析を組み合わせて、アラビア語の文脈における情報の整合性を維持するのに不可欠な堅牢で言語的にインフォームドな検出システムを構築するための基盤を確立している。
関連論文リスト
- TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - A Comprehensive Framework for Semantic Similarity Analysis of Human and AI-Generated Text Using Transformer Architectures and Ensemble Techniques [40.704014941800594]
従来の手法では、人間と機械が生成したコンテンツ間の微妙な意味的差異を捉えられなかった。
本稿では,DeBERTa-v3-largeモデル,双方向LSTM,線形アテンションプールを併用して,局所的および大域的セマンティックパターンを抽出する手法を提案する。
実験の結果,本手法は従来の手法よりも有効であり,AIによるテキスト検出や他のテキスト比較タスクの有用性が証明された。
論文 参考訳(メタデータ) (2025-01-24T07:07:37Z) - The Text Classification Pipeline: Starting Shallow going Deeper [4.97309503788908]
過去10年間、ディープラーニングはテキスト分類に革命をもたらした。
英語は、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、主要言語である。
この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
論文 参考訳(メタデータ) (2024-12-30T23:01:19Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。