論文の概要: Consiglieres in the Shadow: Understanding the Use of Uncensored Large Language Models in Cybercrimes
- arxiv url: http://arxiv.org/abs/2508.12622v1
- Date: Mon, 18 Aug 2025 04:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.972106
- Title: Consiglieres in the Shadow: Understanding the Use of Uncensored Large Language Models in Cybercrimes
- Title(参考訳): サイバー犯罪における非検閲型大規模言語モデルの使用の理解
- Authors: Zilong Lin, Zichuan Li, Xiaojing Liao, XiaoFeng Wang,
- Abstract要約: 大規模言語モデル(ULLM)の最初の体系的研究について述べる。
ULLMはヘイトスピーチ、暴力、エロティックな素材、悪意のあるコードなど、有害なコンテンツを生成できる。
いくつかは100万回以上ダウンロードされ、1900万回以上インストールされている。
- 参考スコア(独自算出の注目度): 11.608577439302582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of AI technologies, particularly Large Language Models (LLMs), has transformed computing while introducing new security and privacy risks. Prior research shows that cybercriminals are increasingly leveraging uncensored LLMs (ULLMs) as backends for malicious services. Understanding these ULLMs has been hindered by the challenge of identifying them among the vast number of open-source LLMs hosted on platforms like Hugging Face. In this paper, we present the first systematic study of ULLMs, overcoming this challenge by modeling relationships among open-source LLMs and between them and related data, such as fine-tuning, merging, compressing models, and using or generating datasets with harmful content. Representing these connections as a knowledge graph, we applied graph-based deep learning to discover over 11,000 ULLMs from a small set of labeled examples and uncensored datasets. A closer analysis of these ULLMs reveals their alarming scale and usage. Some have been downloaded over a million times, with one over 19 million installs. These models -- created through fine-tuning, merging, or compression of other models -- are capable of generating harmful content, including hate speech, violence, erotic material, and malicious code. Evidence shows their integration into hundreds of malicious applications offering services like erotic role-play, child pornography, malicious code generation, and more. In addition, underground forums reveal criminals sharing techniques and scripts to build cheap alternatives to commercial malicious LLMs. These findings highlight the widespread abuse of LLM technology and the urgent need for effective countermeasures against this growing threat.
- Abstract(参考訳): AI技術の進歩、特にLarge Language Models(LLMs)は、新しいセキュリティとプライバシのリスクを導入しながら、コンピューティングを変革した。
これまでの研究では、サイバー犯罪者は悪質なサービスのバックエンドとして、検閲されていないLLM(ULLM)をますます活用している。
これらのULLMを理解することは、Hugging Faceのようなプラットフォームでホストされている膨大な数のオープンソースLLMのうち、それらを特定するという課題によって妨げられている。
本稿では,オープンソースLLM間の関係をモデル化し,その関連データ(微調整,マージ,圧縮,有害な内容のデータセットの使用,あるいは生成など)をモデル化することで,ULLMの体系的な研究を初めて行う。
これらの関係を知識グラフとして表現し,グラフに基づく深層学習を用いて,ラベル付きサンプルと無検閲データセットの小さなセットから11,000以上のULLMを探索した。
これらのULLMのより詳細な分析により、その目覚ましいスケールと使用法が明らかになる。
いくつかは100万回以上ダウンロードされ、1900万回以上インストールされている。
これらのモデルは、ヘイトスピーチ、暴力、エロティックな素材、悪意のあるコードなど、有害なコンテンツを生成できる。
Evidenceは、エロティックなロールプレイ、児童ポルノ、悪意のあるコード生成など、何百もの悪意あるアプリケーションに統合されていることを示している。
さらに、地下のフォーラムでは、商業用悪意あるLLMに代わる安価な代替品を作るための犯罪者の共有技術やスクリプトが明らかにされている。
これらの知見は、LLM技術の広範囲にわたる悪用と、この増大する脅威に対する効果的な対策の緊急の必要性を浮き彫りにしている。
関連論文リスト
- Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation of LLM [13.066526969147501]
大規模言語モデル(LLM)は、デジタルプラットフォーム全体でコンテンツ作成に革命をもたらした。
LLMは、コンテンツ生成、質問と回答(Q&A)、プログラミング、コード推論といった有益なアプリケーションを可能にする。
また、意図的または故意に有害、攻撃的、偏見のあるコンテンツを発生させることで深刻なリスクを生じさせる。
論文 参考訳(メタデータ) (2025-08-07T18:42:16Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Transforming Computer Security and Public Trust Through the Exploration of Fine-Tuning Large Language Models [0.0]
Mallasは、大きな言語モデル(LLM)を悪用する悪意のあるサービスである。
本稿では,様々な事前学習言語モデルとその効率と脆弱性を検証し,Mallasの増殖について考察する。
論文 参考訳(メタデータ) (2024-06-02T06:10:31Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。
機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。
記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文 参考訳(メタデータ) (2023-09-27T15:15:23Z) - Multi-step Jailbreaking Privacy Attacks on ChatGPT [47.10284364632862]
我々は,OpenAI の ChatGPT と ChatGPT によって強化された New Bing のプライバシー上の脅威について検討した。
我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (2023-04-11T13:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。