論文の概要: From Perceptions To Evidence: Detecting AI-Generated Content In Turkish News Media With A Fine-Tuned Bert Classifier
- arxiv url: http://arxiv.org/abs/2602.13504v1
- Date: Fri, 13 Feb 2026 22:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.119508
- Title: From Perceptions To Evidence: Detecting AI-Generated Content In Turkish News Media With A Fine-Tuned Bert Classifier
- Title(参考訳): 認識から証拠へ:トルコのニュースメディアのAIが生成したコンテンツを、微調整されたベルト分類器で検出する
- Authors: Ozancan Ozdemir,
- Abstract要約: 本研究では,トルコの大手メディア3社から3,600項目のラベル付きデータセット上で,トルコ固有のBERTモデルを微調整した。
これは一貫したクロスソースおよび時間的に安定な分類パターンを示し、平均予測信頼度は0.96を超えている。
トルコのニュースメディアにおいて、自己報告されたジャーナリストの認識を越えて、経験的、データ駆動によるAI使用率の測定へと移行した最初の研究である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid integration of large language models into newsroom workflows has raised urgent questions about the prevalence of AI-generated content in online media. While computational studies have begun to quantify this phenomenon in English-language outlets, no empirical investigation exists for Turkish news media, where existing research remains limited to qualitative interviews with journalists or fake news detection. This study addresses that gap by fine-tuning a Turkish-specific BERT model (dbmdz/bert-base-turkish-cased) on a labeled dataset of 3,600 articles from three major Turkish outlets with distinct editorial orientations for binary classification of AI-rewritten content. The model achieves 0.9708 F1 score on the held-out test set with symmetric precision and recall across both classes. Subsequent deployment on over 3,500 unseen articles spanning between 2023 and 2026 reveals consistent cross-source and temporally stable classification patterns, with mean prediction confidence exceeding 0.96 and an estimated 2.5 percentage of examined news content rewritten or revised by LLMs on average. To the best of our knowledge, this is the first study to move beyond self-reported journalist perceptions toward empirical, data-driven measurement of AI usage in Turkish news media.
- Abstract(参考訳): 大規模言語モデルのニュースルームワークフローへの迅速な統合は、オンラインメディアにおけるAI生成コンテンツの普及に関する緊急の疑問を引き起こしている。
計算研究は英語のメディアでこの現象を定量化し始めたが、トルコのニュースメディアには実証的な調査は存在せず、既存の研究はジャーナリストとの質的なインタビューや偽ニュースの検出に限られている。
本研究は, トルコ語固有のBERTモデル(dbmdz/bert-base-turkish-cased)を, AI書き直しコンテンツの二項分類のための独自の編集指向を持つ3つの主要なトルコ語メディアから3,600項目のラベル付きデータセット上に微調整することで, ギャップを解消するものである。
このモデルは、左右対称の精度で保持されたテストセットで0.9708 F1スコアを達成し、両方のクラスでリコールする。
2023年から2026年にかけての3500件以上の未確認記事へのその後の展開は、平均的な予測信頼度が0.96を超え、LLMによって書き直されたり書き直されたりした記事の2.5パーセントが、一貫したクロスソースおよび時間的に安定した分類パターンを示す。
私たちの知る限りでは、トルコのニュースメディアにおけるAI利用の実証的、データ駆動的な測定に向けて、自己報告されたジャーナリストの認識を超えた最初の研究である。
関連論文リスト
- A Unified BERT-CNN-BiLSTM Framework for Simultaneous Headline Classification and Sentiment Analysis of Bangla News [1.8737506366172099]
本研究は,感情分析と合わせて,Banglaニュースの見出し分類に最先端のアプローチを提案する。
我々は9014ニュース見出しのBAN-ABSAというデータセットを探索した。
提案したBERT-CNN-BiLSTMは,分類タスクにおけるベースラインモデル全体の性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-11-23T21:22:56Z) - CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English [53.32175252285023]
言語間のニュース比較は、情報の検証に有望なアプローチを提供する。
既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。
我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-22T14:23:50Z) - Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models [0.07696728525672149]
ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
論文 参考訳(メタデータ) (2023-07-13T14:50:55Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - A Heuristic-driven Uncertainty based Ensemble Framework for Fake News
Detection in Tweets and News Articles [5.979726271522835]
ニュース項目が「本物」か「偽」かを自動的に識別する新しい偽ニュース検出システムについて述べる。
我々は,事前学習したモデルと統計的特徴融合ネットワークからなるアンサンブルモデルを用いた。
提案手法は,分類タスクの適切なクラス出力信頼度レベルとともに,信頼性の高い予測不確実性を定量化した。
論文 参考訳(メタデータ) (2021-04-05T06:35:30Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。