論文の概要: PrompTrend: Continuous Community-Driven Vulnerability Discovery and Assessment for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.19185v1
- Date: Fri, 25 Jul 2025 11:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.938025
- Title: PrompTrend: Continuous Community-Driven Vulnerability Discovery and Assessment for Large Language Models
- Title(参考訳): PrompTrend: 大規模言語モデルの継続的コミュニティ駆動型脆弱性発見と評価
- Authors: Tarek Gasmi, Ramzi Guesmi, Mootez Aloui, Jihene Bennaceur,
- Abstract要約: プラットフォーム間で脆弱性データを収集し,多次元スコアリングを用いて評価するシステムであるPrompTrendを提案する。
本研究は,現在の言語モデルにおいて,機能向上によってセキュリティが向上し,コミュニティ主導の心理的操作が主要な脅威となるという仮定に挑戦する。
- 参考スコア(独自算出の注目度): 1.03121181235382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Static benchmarks fail to capture LLM vulnerabilities emerging through community experimentation in online forums. We present PrompTrend, a system that collects vulnerability data across platforms and evaluates them using multidimensional scoring, with an architecture designed for scalable monitoring. Cross-sectional analysis of 198 vulnerabilities collected from online communities over a five-month period (January-May 2025) and tested on nine commercial models reveals that advanced capabilities correlate with increased vulnerability in some architectures, psychological attacks significantly outperform technical exploits, and platform dynamics shape attack effectiveness with measurable model-specific patterns. The PrompTrend Vulnerability Assessment Framework achieves 78% classification accuracy while revealing limited cross-model transferability, demonstrating that effective LLM security requires comprehensive socio-technical monitoring beyond traditional periodic assessment. Our findings challenge the assumption that capability advancement improves security and establish community-driven psychological manipulation as the dominant threat vector for current language models.
- Abstract(参考訳): 静的ベンチマークは、オンラインフォーラムでコミュニティの実験を通じて発生するLSMの脆弱性をキャプチャすることができない。
本稿では,プラットフォーム間の脆弱性データを収集し,多次元スコアリングを用いて評価するシステムであるPrompTrendについて述べる。
5ヶ月(2025年1月から5月)にオンラインコミュニティから収集され、9つの商用モデルでテストされた198の脆弱性の横断的な分析によると、高度な能力はいくつかのアーキテクチャの脆弱性の増加と相関し、心理的攻撃は技術的エクスプロイトを著しく上回り、プラットフォームダイナミクスは測定可能なモデル固有のパターンで攻撃効果を形作る。
PrompTrend Vulnerability Assessment Frameworkは、78%の分類精度を達成しつつ、限定的なクロスモデル転送可能性を明らかにし、効果的なLDMセキュリティには従来の定期的な評価以上の包括的な社会技術的監視が必要であることを実証している。
本研究は,現在の言語モデルにおいて,機能向上によってセキュリティが向上し,コミュニティ主導の心理的操作が主要な脅威となるという仮定に挑戦する。
関連論文リスト
- White-Basilisk: A Hybrid Model for Code Vulnerability Detection [50.49233187721795]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。
その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。
モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文 参考訳(メタデータ) (2025-06-11T18:43:51Z) - Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。