Fugu-MT 論文翻訳(概要): Scam Shield: Multi-Model Voting and Fine-Tuned LLMs Against Adversarial Attacks

論文の概要: Scam Shield: Multi-Model Voting and Fine-Tuned LLMs Against Adversarial Attacks

arxiv url: http://arxiv.org/abs/2511.01746v1
Date: Mon, 03 Nov 2025 16:58:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:27.336801
Title: Scam Shield: Multi-Model Voting and Fine-Tuned LLMs Against Adversarial Attacks
Title（参考訳）: Scam Shield:マルチモデル投票と敵の攻撃に対する微調整LDM
Authors: Chen-Wei Chang, Shailik Sarkar, Hossein Salemi, Hyungmin Kim, Shutonu Mitra, Hemant Purohit, Fengxiu Zhang, Michin Hong, Jin-Hee Cho, Chang-Tien Lu,
Abstract要約: 本稿では,LLaMA 3.1 8Bを微調整した軽量なマルチモデル投票フロントエンドを提案する。実験により,この階層型設計は逆スカム検出を向上し,推論時間を短縮することが示された。
参考スコア（独自算出の注目度）: 11.165014580433988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scam detection remains a critical challenge in cybersecurity as adversaries craft messages that evade automated filters. We propose a Hierarchical Scam Detection System (HSDS) that combines a lightweight multi-model voting front end with a fine-tuned LLaMA 3.1 8B Instruct back end to improve accuracy and robustness against adversarial attacks. An ensemble of four classifiers provides preliminary predictions through majority vote, and ambiguous cases are escalated to the fine-tuned model, which is optimized with adversarial training to reduce misclassification. Experiments show that this hierarchical design both improves adversarial scam detection and shortens inference time by routing most cases away from the LLM, outperforming traditional machine-learning baselines and proprietary LLM baselines. The findings highlight the effectiveness of a hybrid voting mechanism and adversarial fine-tuning in fortifying LLMs against evolving scam tactics, enhancing the resilience of automated scam detection systems.
Abstract（参考訳）: 詐欺検出は、自動フィルターを回避するメッセージを作る敵たちにとって、サイバーセキュリティにとって依然として重要な課題だ。我々は,軽量なマルチモデル投票フロントエンドと微調整されたLLaMA 3.1 8Bバックエンドを組み合わせた階層型詐欺検知システム(HSDS)を提案し,敵攻撃に対する精度と堅牢性を向上させる。 4つの分類器のアンサンブルは、多数決による予備的な予測を提供し、曖昧なケースを微調整モデルにエスカレートする。実験により,この階層型設計は,LLMからほとんどのケースをルーティングして,従来の機械学習ベースラインと独自のLCMベースラインを上回り,逆スキャン検出と推論時間を短縮することを示した。本研究は, 自動詐欺検知システムのレジリエンスを高めるため, 複合投票機構の有効性とLLMの強化効果を強調した。

関連論文リスト

Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文参考訳（メタデータ） (2025-06-20T05:30:25Z)
MultiPhishGuard: An LLM-based Multi-Agent System for Phishing Email Detection [3.187381965457262]
MultiPhishGuardは動的マルチエージェント検出システムである。本フレームワークでは, 政策最適化強化学習アルゴリズムを用いて, 自動決定重み付けを行う5つの協調エージェントを用いる。実験により、MultiPhishGuardは偽陽性(2.73%)と偽陰性率(0.20%)で高い精度(97.89%)を達成することが示された。
論文参考訳（メタデータ） (2025-05-26T23:27:15Z)
Towards Robust Multimodal Large Language Models Against Jailbreak Attacks [24.491648943977605]
本稿では,敵対的雑音を発生させる攻撃ステップとモデル更新ステップとを交互に行うSafeMLLMを紹介する。攻撃ステップでは、SafeMLLMは新たに提案されたコントラスト埋め込み攻撃(CoE-Attack)を通じて敵の摂動を発生させる。我々は,SafeMLLMを6つのMLLMと6つのジェイルブレイク法で比較した。
論文参考訳（メタデータ） (2025-02-02T03:45:49Z)
Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。本稿では,新しいNLPを用いたインジェクション検出手法を提案する。階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文参考訳（メタデータ） (2024-10-28T15:47:03Z)
Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-09-30T08:41:39Z)
Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。 C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文参考訳（メタデータ） (2024-05-24T14:20:09Z)
Optimization-based Prompt Injection Attack to LLM-as-a-Judge [69.27584941296875]
LLM-as-a-Judgeは、大きな言語モデル(LLM)を使用して、ある質問に対する候補セットから最適な応答を選択する。 LLM-as-a-Judgeに対する最適化に基づくプロンプトインジェクション攻撃であるJiceDeceiverを提案する。評価の結果,JiceDeceiveは既存のプロンプトインジェクション攻撃よりも効果的であることがわかった。
論文参考訳（メタデータ） (2024-03-26T13:58:00Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。