Fugu-MT 論文翻訳(概要): Exposing LLM Vulnerabilities: Adversarial Scam Detection and Performance

論文の概要: Exposing LLM Vulnerabilities: Adversarial Scam Detection and Performance

arxiv url: http://arxiv.org/abs/2412.00621v1
Date: Sun, 01 Dec 2024 00:13:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.069396
Title: Exposing LLM Vulnerabilities: Adversarial Scam Detection and Performance
Title（参考訳）: LLM脆弱性の抽出:逆カメラ検出と性能
Authors: Chen-Wei Chang, Shailik Sarkar, Shutonu Mitra, Qi Zhang, Hossein Salemi, Hemant Purohit, Fengxiu Zhang, Michin Hong, Jin-Hee Cho, Chang-Tien Lu,
Abstract要約: 本稿では, 大規模言語モデル (LLM) の脆弱性を, 詐欺検出のタスクに対して対向詐欺メッセージに直面する際の脆弱性について検討する。我々は、オリジナルメッセージと逆詐欺メッセージの両方を含む、きめ細かいスカムメッセージのラベル付き包括的なデータセットを作成しました。分析の結果, LLMの脆弱性を利用した逆例は, 高い誤分類率をもたらすことがわかった。
参考スコア（独自算出の注目度）: 16.9071617169937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can we trust Large Language Models (LLMs) to accurately predict scam? This paper investigates the vulnerabilities of LLMs when facing adversarial scam messages for the task of scam detection. We addressed this issue by creating a comprehensive dataset with fine-grained labels of scam messages, including both original and adversarial scam messages. The dataset extended traditional binary classes for the scam detection task into more nuanced scam types. Our analysis showed how adversarial examples took advantage of vulnerabilities of a LLM, leading to high misclassification rate. We evaluated the performance of LLMs on these adversarial scam messages and proposed strategies to improve their robustness.
Abstract（参考訳）: 詐欺を正確に予測するために、LLM(Large Language Models)を信頼できますか? 本稿では,逆詐欺検出のタスクに対して,逆詐欺メッセージに直面する場合のLSMの脆弱性について検討する。我々は、オリジナルメッセージと逆詐欺メッセージの両方を含む、きめ細かいスカムメッセージのラベルを付けた包括的なデータセットを作成することで、この問題に対処した。データセットは、スカム検出タスクの従来のバイナリクラスを、よりニュアンスなスカムタイプに拡張した。分析の結果, LLMの脆弱性を利用した逆例は, 高い誤分類率をもたらすことがわかった。我々は,これらの逆詐欺メッセージに対するLDMの性能評価を行い,その堅牢性向上のための戦略を提案した。

関連論文リスト

ScamFerret: Detecting Scam Websites Autonomously with Large Language Models [2.6217304977339473]
ScamFerretは、大きな言語モデル(LLM)を使用して、特定のURLからデータを自律的に収集して分析し、それが詐欺であるかどうかを判断する革新的なエージェントシステムである。評価の結果、ScamFerretは英語で4つの詐欺タイプを分類する0.972の精度と、オンラインショッピングサイトを3つの言語で分類する0.993の精度を達成できた。
論文参考訳（メタデータ） (2025-02-14T12:16:38Z)
Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文参考訳（メタデータ） (2025-02-03T18:59:01Z)
Distinguishing Scams and Fraud with Ensemble Learning [0.8192907805418583]
消費者金融保護局の苦情データベースは、ユーザ詐欺クエリにおけるLCMのパフォーマンスを評価するための豊富なデータソースである。我々は詐欺やCFPBの苦情を識別するためのアンサンブルアプローチを開発した。
論文参考訳（メタデータ） (2024-12-11T18:07:18Z)
Can LLMs be Scammed? A Baseline Measurement Study [0.0873811641236639]
様々な詐欺戦術に対するLarge Language Models(LLMs)の脆弱性を体系的に評価する。まず、FINRA分類で同定された多様な詐欺カテゴリーを反映した37の明確に定義されたベース詐欺シナリオを組み込んだ。第2に、汎用プロプライエタリ(GPT-3.5, GPT-4)とオープンソース(Llama)モデルを用いて、スカム検出における性能を解析する。第三に、我々の研究は、詐欺戦術がLSMに対して最も効果的であるか、そして様々なペルソナの特徴や説得技術がこれらの脆弱性にどのように影響するかについての批判的な洞察を提供する。
論文参考訳（メタデータ） (2024-10-14T05:22:27Z)
Combating Phone Scams with LLM-based Detection: Where Do We Stand? [1.8979188847659796]
本研究では,大規模言語モデル(LLM)による不正通話の検出の可能性について検討する。 LLMをベースとした検出器は、潜在的な詐欺の発生を検知し、ユーザに対して即時保護を提供する。
論文参考訳（メタデータ） (2024-09-18T02:14:30Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
Detecting Scams Using Large Language Models [19.7220607313348]
大規模言語モデル(LLM)は、セキュリティなど、様々なアプリケーションで注目を集めている。本稿では,サイバーセキュリティの重要な側面である詐欺検知におけるLCMの有用性について検討する。フィッシング、前払い詐欺、ロマンス詐欺などの詐欺を識別するためのLLMの新しいユースケースを提案する。
論文参考訳（メタデータ） (2024-02-05T16:13:54Z)
An Improved Transformer-based Model for Detecting Phishing, Spam, and Ham: A Large Language Model Approach [0.0]
本稿では,BERTファミリを微調整し,フィッシングやスパムメールを特に検出するIPSDMを提案する。当社の微調整バージョンであるIPSDMは、バランスの取れていないデータセットとバランスの取れていないデータセットの両方で、メールをよりよく分類することができます。
論文参考訳（メタデータ） (2023-11-01T18:41:50Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。