論文の概要: A Persuasion-Based Prompt Learning Approach to Improve Smishing Detection through Data Augmentation
- arxiv url: http://arxiv.org/abs/2411.02403v2
- Date: Wed, 06 Nov 2024 02:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 03:29:39.934627
- Title: A Persuasion-Based Prompt Learning Approach to Improve Smishing Detection through Data Augmentation
- Title(参考訳): データ拡張によるスマイシング検出改善のための説得型プロンプト学習手法
- Authors: Ho Sung Shim, Hyoungjun Park, Kyuhan Lee, Jang-Sun Park, Seonhye Kang,
- Abstract要約: マシンラーニングベースのスマイシング検出には、多くの課題が残っている。
スマイシング関連データの繊細な性質を考えると、MLモデルのトレーニングや評価に使用可能な、公開アクセス可能なデータが不足している。
本稿では,数発のプロンプト学習アプローチを用いた新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 1.4388765025696655
- License:
- Abstract: Smishing, which aims to illicitly obtain personal information from unsuspecting victims, holds significance due to its negative impacts on our society. In prior studies, as a tool to counteract smishing, machine learning (ML) has been widely adopted, which filters and blocks smishing messages before they reach potential victims. However, a number of challenges remain in ML-based smishing detection, with the scarcity of annotated datasets being one major hurdle. Specifically, given the sensitive nature of smishing-related data, there is a lack of publicly accessible data that can be used for training and evaluating ML models. Additionally, the nuanced similarities between smishing messages and other types of social engineering attacks such as spam messages exacerbate the challenge of smishing classification with limited resources. To tackle this challenge, we introduce a novel data augmentation method utilizing a few-shot prompt learning approach. What sets our approach apart from extant methods is the use of the principles of persuasion, a psychology theory which explains the underlying mechanisms of smishing. By designing prompts grounded in the persuasion principles, our augmented dataset could effectively capture various, important aspects of smishing messages, enabling ML models to be effectively trained. Our evaluation within a real-world context demonstrates that our augmentation approach produces more diverse and higher-quality smishing data instances compared to other cutting-edging approaches, leading to substantial improvements in the ability of ML models to detect the subtle characteristics of smishing messages. Moreover, our additional analyses reveal that the performance improvement provided by our approach is more pronounced when used with ML models that have a larger number of parameters, demonstrating its effectiveness in training large-scale ML models.
- Abstract(参考訳): 疑わしい被害者から個人情報を不正に入手することを目的としたスマイッシングは,社会に悪影響を及ぼすため,その重要性を秘めている。
従来の研究では、スマイシングに対抗するツールとして機械学習(ML)が広く採用されており、潜在的な犠牲者に到達する前にスマイッシングメッセージをフィルタリングしてブロックしている。
しかし、MLベースのスマイッシング検出には多くの課題が残っており、注釈付きデータセットの不足が大きなハードルのひとつとなっている。
具体的には、スマイシング関連データの繊細な性質を考えると、MLモデルのトレーニングと評価に使用可能な、公開アクセス可能なデータが不足している。
さらに、スマイシングメッセージとスパムメッセージのような他のタイプのソーシャルエンジニアリング攻撃との微妙な類似性は、限られたリソースによるスマイシング分類の課題を悪化させる。
この課題に対処するために,数発のプロンプト学習アプローチを用いた新しいデータ拡張手法を提案する。
我々のアプローチを既存の方法と切り離すのは、スマイッシングの基礎となるメカニズムを説明する心理学理論である説得の原理を使うことである。
説得原理に根ざしたプロンプトを設計することで、当社のデータセットは、スマイシングメッセージのさまざまな重要な側面を効果的にキャプチャし、MLモデルを効果的にトレーニングすることが可能になります。
実世界の文脈における我々の評価は、我々の拡張アプローチが、他のカット・エージング・アプローチと比較して、より多彩で高品質なスマイシング・データインスタンスを生成し、スマイッシング・メッセージの微妙な特性を検出するMLモデルの性能を大幅に向上させることを示した。
さらに,本手法により得られた性能改善は,多数のパラメータを持つMLモデルを用いた場合よりも顕著であり,大規模MLモデルのトレーニングにおける有効性を示す。
関連論文リスト
- Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。
その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。
本稿では,この課題に初めて挑戦する。
論文 参考訳(メタデータ) (2024-06-27T05:25:46Z) - Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models [27.955342181784797]
現在、MLLMの対向移動可能性の脅威に関する体系的な研究は行われていない。
本稿では, MLLM間での対向転写性能を評価するため, TATM (Typography Augment Transferability Method) と呼ばれるブースティング手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T14:27:20Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。
機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。
記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文 参考訳(メタデータ) (2023-09-27T15:15:23Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。
新たな課題と今後の研究方向性を強調します。
本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文 参考訳(メタデータ) (2023-05-12T14:28:02Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。