Fugu-MT 論文翻訳(概要): Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness

論文の概要: Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness

arxiv url: http://arxiv.org/abs/2401.15127v2
Date: Wed, 13 Mar 2024 23:51:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 01:42:38.595265
Title: Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness
Title（参考訳）: OSINTを用いたサイバー脅威認識のためのLCMチャットボットの評価
Authors: Samaneh Shafee, Alysson Bessani, Pedro M. Ferreira,
Abstract要約: 本研究では,ChatGPT,GPT4all,Dolly,Stanford Alpaca,Alpaca-LoRA,Falcon,Vicunaチャットボットのバイナリ分類および名前付きエンティティ認識タスクにおける性能について検討する。バイナリ分類実験では、商業モデルとしてGPT-4が許容されるF1スコア0.94を達成し、オープンソースのGPT4allモデルはF1スコア0.90を達成した。本研究は、OSINTバイナリ分類のためのチャットボットの能力を実証し、特別に訓練されたモデルを効果的に置き換えるために、NERをさらに改善する必要があることを示す。
参考スコア（独自算出の注目度）: 1.4932549821542682
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Knowledge sharing about emerging threats is crucial in the rapidly advancing field of cybersecurity and forms the foundation of Cyber Threat Intelligence (CTI). In this context, Large Language Models are becoming increasingly significant in the field of cybersecurity, presenting a wide range of opportunities. This study surveys the performance of ChatGPT, GPT4all, Dolly, Stanford Alpaca, Alpaca-LoRA, Falcon, and Vicuna chatbots in binary classification and Named Entity Recognition (NER) tasks performed using Open Source INTelligence (OSINT). We utilize well-established data collected in previous research from Twitter to assess the competitiveness of these chatbots when compared to specialized models trained for those tasks. In binary classification experiments, Chatbot GPT-4 as a commercial model achieved an acceptable F1 score of 0.94, and the open-source GPT4all model achieved an F1 score of 0.90. However, concerning cybersecurity entity recognition, all evaluated chatbots have limitations and are less effective. This study demonstrates the capability of chatbots for OSINT binary classification and shows that they require further improvement in NER to effectively replace specially trained models. Our results shed light on the limitations of the LLM chatbots when compared to specialized models, and can help researchers improve chatbots technology with the objective to reduce the required effort to integrate machine learning in OSINT-based CTI tools.
Abstract（参考訳）: 新興脅威に関する知識共有は、サイバーセキュリティの急速に進歩する分野において不可欠であり、サイバー脅威インテリジェンス(CTI)の基礎を形成している。このような状況下では、大規模言語モデルはサイバーセキュリティの分野でますます重要になってきており、幅広い機会をもたらしている。本研究では,ChatGPT,GPT4all,Dolly,Stanford Alpaca,Alpaca-LoRA,Falcon,Vicunaチャットボットのバイナリ分類における性能と,オープンソースインテリジェンス(OSINT)を用いた名前付きエンティティ認識(NER)タスクについて調査した。従来のTwitterの調査で収集された確固としたデータを用いて、これらのタスクのために訓練された特殊なモデルと比較して、これらのチャットボットの競争力を評価する。二値分類実験では、商業モデルとしてのChatbot GPT-4は許容されるF1スコア0.94を達成し、オープンソースのGPT4allモデルはF1スコア0.90を達成した。しかし、サイバーセキュリティのエンティティ認識に関しては、評価されたチャットボットには制限があり、効果が低い。本研究は、OSINTバイナリ分類のためのチャットボットの能力を実証し、特別に訓練されたモデルを効果的に置き換えるために、NERをさらに改善する必要があることを示す。我々の結果は、特殊なモデルと比較してLLMチャットボットの限界に光を当て、OSINTベースのCTIツールに機械学習を統合するために必要な労力を減らすことを目的として、研究者がチャットボット技術を改善するのに役立ちます。

関連論文リスト

Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models [5.304267859042463]
本研究は,Web上で利用可能な脅威レポートから攻撃手法を識別するためのサイバー脅威情報(CTI)抽出手法の性能を評価する。我々は、Threat Report ATT&CK Mapper(TRAM)やLlama2のようなオープンソースのLarge Language Models(LLM)など、最先端ツールを利用する4つの構成を分析した。以上の結果から, クラス不均衡, オーバーフィッティング, ドメイン固有の複雑性など, 正確なテクニック抽出を阻害する重要な課題が明らかとなった。
論文参考訳（メタデータ） (2025-05-06T03:43:12Z)
Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文参考訳（メタデータ） (2025-01-13T17:12:38Z)
Seq2Seq Model-Based Chatbot with LSTM and Attention Mechanism for Enhanced User Interaction [1.937324318931008]
本研究では、注意機構とLong Short-Term Memory(LSTM)セルを組み込んだエンコーダデコーダアーキテクチャを備えたSeq2Seqモデルを提案する。提案されているSeq2Seqモデルベースのロボットは、モロッコのドラア・タフィラレ(Draa-Tafilalet)にある観光セクター向けのデータセットで訓練され、検証され、テストされている。
論文参考訳（メタデータ） (2024-12-27T23:50:54Z)
IntellBot: Retrieval Augmented LLM Chatbot for Cyber Threat Knowledge Delivery [10.937956959186472]
IntellBotは、Large Language ModelsやLangchainといった最先端技術の上に構築された高度なサイバーセキュリティである。さまざまなデータソースから情報を収集し、既知の脆弱性、最近のサイバー攻撃、新興脅威をカバーする包括的な知識ベースを作成する。それは、サイバーセキュリティのインサイトのための主要なハブとして機能する、カスタマイズされた応答を提供する。
論文参考訳（メタデータ） (2024-11-08T09:40:53Z)
A Transformer-based Approach for Augmenting Software Engineering Chatbots Datasets [4.311626046942916]
ソフトウェアエンジニアリングデータセットを拡張するための自動トランスフォーマーベースのアプローチを提案する。 3つのソフトウェアエンジニアリングデータセットを用いて,拡張アプローチがRasa NLUの性能に与える影響を評価する。
論文参考訳（メタデータ） (2024-07-16T17:48:44Z)
What Does the Bot Say? Opportunities and Risks of Large Language Models in Social Media Bot Detection [48.572932773403274]
ソーシャルボット検出における大規模言語モデルの可能性とリスクについて検討する。本稿では,多様なユーザ情報モダリティを分割し,克服するための混合異種エキスパートフレームワークを提案する。実験により、1000の注釈付き例に対する命令チューニングは、最先端のベースラインよりも優れた特殊なLLMを生成することが示された。
論文参考訳（メタデータ） (2024-02-01T06:21:19Z)
Analysis of the User Perception of Chatbots in Education Using A Partial Least Squares Structural Equation Modeling Approach [0.0]
オプティミズム、イノベーティブネス、不快感、不安、透明性、倫理、相互作用、エンゲージメント、正確さといった主要な行動関連側面について研究した。その結果、最適性と革新性は、知覚的使用覚(PEOU)と知覚的有用性(PU)に正の相関があることが判明した。
論文参考訳（メタデータ） (2023-11-07T00:44:56Z)
Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文参考訳（メタデータ） (2023-11-02T12:01:29Z)
Beyond Traditional Teaching: The Potential of Large Language Models and Chatbots in Graduate Engineering Education [0.0]
本稿では,大規模言語モデル(LLM)とチャットボットを大学院工学教育に統合する可能性について検討する。コース資料から質問バンクを作成し、正確で洞察に富んだ回答を提供するボットの能力を評価する。数学的な問題解決やコード解釈のためにWolfram Alphaのような強力なプラグインが、ボットの機能を大幅に拡張できることを示す。
論文参考訳（メタデータ） (2023-09-09T13:37:22Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)
A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文参考訳（メタデータ） (2023-02-06T04:21:59Z)
Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文参考訳（メタデータ） (2021-05-14T10:05:10Z)
Predicting Organizational Cybersecurity Risk: A Deep Learning Approach [0.0]
ハッカーはハッカーフォーラムで見つかったエクスプロイトを使って、複雑なサイバー攻撃を行う。我々は,エクスプロイトがターゲットとするエクスプロイトとそのエンティティを特定するためのhacker forum entity recognition framework(hacker)を提案する。 HackERは、2方向の長期短期メモリモデル(BiLSTM)を使用して、エクスプロイトがターゲットとする企業の予測モデルを作成します。
論文参考訳（メタデータ） (2020-12-26T01:15:34Z)
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文参考訳（メタデータ） (2020-10-05T20:49:26Z)
Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文参考訳（メタデータ） (2020-06-11T22:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。