論文の概要: When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text
- arxiv url: http://arxiv.org/abs/2506.09975v1
- Date: Wed, 11 Jun 2025 17:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.179509
- Title: When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text
- Title(参考訳): 検出が失敗したとき:人のようなソーシャルメディアテキストを生成するための微調整モデルの力
- Authors: Hillary Dawkins, Kathleen C. Fraser, Svetlana Kiritchenko,
- Abstract要約: ソーシャルメディアは、オンライン・インフルエンス・キャンペーンにおいて重要な攻撃源となっている。
我々は、オープンソース、クローズドソース、微調整されたLLMの組み合わせから、505,159のAI生成ソーシャルメディアポストのデータセットを作成します。
典型的な研究仮定の下ではポストを検出できるが、攻撃者が細調整されたモデルを公開しないというより現実的な仮定の下では、検出可能性は劇的に低下する。
- 参考スコア(独自算出の注目度): 13.14749943120523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting AI-generated text is a difficult problem to begin with; detecting AI-generated text on social media is made even more difficult due to the short text length and informal, idiosyncratic language of the internet. It is nonetheless important to tackle this problem, as social media represents a significant attack vector in online influence campaigns, which may be bolstered through the use of mass-produced AI-generated posts supporting (or opposing) particular policies, decisions, or events. We approach this problem with the mindset and resources of a reasonably sophisticated threat actor, and create a dataset of 505,159 AI-generated social media posts from a combination of open-source, closed-source, and fine-tuned LLMs, covering 11 different controversial topics. We show that while the posts can be detected under typical research assumptions about knowledge of and access to the generating models, under the more realistic assumption that an attacker will not release their fine-tuned model to the public, detectability drops dramatically. This result is confirmed with a human study. Ablation experiments highlight the vulnerability of various detection algorithms to fine-tuned LLMs. This result has implications across all detection domains, since fine-tuning is a generally applicable and realistic LLM use case.
- Abstract(参考訳): AI生成されたテキストをソーシャルメディア上で検出することは、インターネットの短いテキストの長さと非公式で慣用的な言語のために、さらに難しい。
ソーシャルメディアは、特定のポリシー、決定、イベントをサポートする(あるいは反対する)AI生成ポストを使用することで、大量生産されたAIが生成するポストを使用することによって、オンライン影響キャンペーンにおいて重要な攻撃ベクトルを表現しているため、この問題に取り組むことは重要である。
我々は、合理的に洗練された脅威アクターの考え方とリソースを用いてこの問題にアプローチし、オープンソース、クローズドソース、微調整されたLLMの組み合わせから505,159件のAI生成ソーシャルメディア投稿のデータセットを作成し、11の議論のあるトピックをカバーした。
投稿は、生成モデルに関する知識とアクセスに関する典型的な研究仮定の下で検出できるが、攻撃者が細調整されたモデルを公開しないというより現実的な仮定の下では、検出可能性は劇的に低下する。
この結果は人間の研究によって確認される。
アブレーション実験は、微調整LDMに対する様々な検出アルゴリズムの脆弱性を強調している。
この結果は、ファインチューニングが一般的に適用され、現実的なLLMユースケースであるため、すべての検出領域に影響を及ぼす。
関連論文リスト
- Could AI Trace and Explain the Origins of AI-Generated Images and Text? [53.11173194293537]
AI生成コンテンツは、現実の世界ではますます普及している。
敵は、大規模なマルチモーダルモデルを利用して、倫理的または法的基準に違反した画像を作成するかもしれない。
ペーパーレビュアーは、大きな言語モデルを誤用して、真の知的努力なしにレビューを生成する。
論文 参考訳(メタデータ) (2025-04-05T20:51:54Z) - Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.14749943120523]
テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。
AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。
AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
論文 参考訳(メタデータ) (2024-06-21T18:31:49Z) - Modes of Analyzing Disinformation Narratives With AI/ML/Text Mining to Assist in Mitigating the Weaponization of Social Media [0.8287206589886879]
本稿では,ソーシャルメディアにおける悪意あるコミュニケーションを捕捉・監視するための定量的モードの必要性を明らかにする。
ソーシャル・ネットワークを利用したメッセージの「ウェポン化」が意図的に行われており、州が後援し、私的に運営される政治的指向のエンティティも含む。
FacebookやX/Twitterのような主要プラットフォームにモデレーションを導入しようとする試みにもかかわらず、完全にモデレートされていないスペースを提供する代替ソーシャルネットワークが現在確立されている。
論文 参考訳(メタデータ) (2024-05-25T00:02:14Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Who Said That? Benchmarking Social Media AI Detection [12.862865254507177]
本稿では、実ソーシャルメディアプラットフォームにおけるAIテキスト検出モデルの能力を評価するために開発された新しいベンチマークであるSAID(Social media AI Detection)を紹介する。
ZhihuやQuoraといった人気のソーシャルメディアプラットフォームから、AI生成テキストが組み込まれている。
Zhihuデータセットに基づく我々の研究の注目すべき発見は、アノテータがAI生成テキストと人間生成テキストを96.5%の平均精度で区別できることを示している。
論文 参考訳(メタデータ) (2023-10-12T11:35:24Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。