論文の概要: REST: A Thread Embedding Approach for Identifying and Classifying
User-specified Information in Security Forums
- arxiv url: http://arxiv.org/abs/2001.02660v2
- Date: Mon, 30 Mar 2020 19:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 12:39:56.106511
- Title: REST: A Thread Embedding Approach for Identifying and Classifying
User-specified Information in Security Forums
- Title(参考訳): REST: セキュリティフォーラムにおけるユーザ特定情報の特定と分類のためのスレッド埋め込みアプローチ
- Authors: Joobin Gharibshah, Evangelos E. Papalexakis, Michalis Faloutsos
- Abstract要約: セキュリティの専門家に対する関心のスレッドを特定することに重点を置いています。
a) a、おそらく不完全な単語の袋に基づいて興味あるスレッドを識別し、(b)これらを上記の4つのクラスのうちの1つに分類する。
164kの投稿と21Kのスレッドを持つ3つのセキュリティフォーラムの実際のデータを用いて本手法の評価を行った。
- 参考スコア(独自算出の注目度): 7.222147076297714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we extract useful information from a security forum? We focus on
identifying threads of interest to a security professional: (a) alerts of
worrisome events, such as attacks, (b) offering of malicious services and
products, (c) hacking information to perform malicious acts, and (d) useful
security-related experiences. The analysis of security forums is in its infancy
despite several promising recent works. Novel approaches are needed to address
the challenges in this domain: (a) the difficulty in specifying the "topics" of
interest efficiently, and (b) the unstructured and informal nature of the text.
We propose, REST, a systematic methodology to: (a) identify threads of interest
based on a, possibly incomplete, bag of words, and (b) classify them into one
of the four classes above. The key novelty of the work is a multi-step weighted
embedding approach: we project words, threads and classes in appropriate
embedding spaces and establish relevance and similarity there. We evaluate our
method with real data from three security forums with a total of 164k posts and
21K threads. First, REST robustness to initial keyword selection can extend the
user-provided keyword set and thus, it can recover from missing keywords.
Second, REST categorizes the threads into the classes of interest with superior
accuracy compared to five other methods: REST exhibits an accuracy between
63.3-76.9%. We see our approach as a first step for harnessing the wealth of
information of online forums in a user-friendly way, since the user can loosely
specify her keywords of interest.
- Abstract(参考訳): セキュリティフォーラムから有用な情報をどうやって抽出できるのか?
セキュリティ専門家の興味のあるスレッドを特定することに集中しています。
(a)攻撃などの厄介な事件の警報
(b)悪意のあるサービス及び製品の提供
(c)悪意ある行為を行うために情報をハッキングし、
(d)セキュリティ関連の有用な経験。
最近の有望な研究にもかかわらず、セキュリティフォーラムの分析は初期段階にある。
この領域の課題に対処するには、新しいアプローチが必要です。
a)利害関係の「話題」を効率的に指定することの難しさ及び
(b)テキストの非構造的で非公式な性質。
私たちは、RESTという体系的な方法論を提案します。
(a)a、おそらく不完全な単語の袋に基づいて興味の糸を識別し、
(b)上記の4つのうちの1つに分類する。
我々は、単語、スレッド、クラスを適切な埋め込み空間に投影し、そこに関連性と類似性を確立する。
164kの投稿と21Kスレッドからなる3つのセキュリティフォーラムの実際のデータを用いて本手法の評価を行った。
まず、初期キーワード選択に対するRESTの堅牢性は、ユーザが提供するキーワードセットを拡張し、欠落したキーワードから回復することができる。
第2に、RESTは、スレッドを他の5つのメソッドと比較して、より優れた精度で関心のあるクラスに分類する。
ユーザフレンドリーな方法でオンラインフォーラムの豊富な情報を活用するための第一歩として,私たちのアプローチを捉えています。
関連論文リスト
- Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Integrity and Junkiness Failure Handling for Embedding-based Retrieval:
A Case Study in Social Network Search [26.705196461992845]
埋め込みベースの検索は、eコマースやソーシャルネットワーク検索など、さまざまな検索アプリケーションで使われている。
本稿では,2021年初頭に開始された埋め込み型検索をソーシャルネットワーク検索エンジン上で解析する。
私たちは、それによってもたらされた失敗の2つの主要なカテゴリ、完全性とジャンク性を定義します。
論文 参考訳(メタデータ) (2023-04-18T20:53:47Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - User-Centered Security in Natural Language Processing [0.7106986689736825]
自然言語処理(NLP)におけるユーザ中心のセキュリティの枠組みの提案
NLP内の2つのセキュリティドメインに重点を置いている。
論文 参考訳(メタデータ) (2023-01-10T22:34:19Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP [83.66405397421907]
セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。
最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T15:53:36Z) - Conversational Search with Mixed-Initiative -- Asking Good Clarification
Questions backed-up by Passage Retrieval [9.078765961879467]
我々は,対話型検索のシナリオを混合開始型で扱う。つまり,ユーザ回答,システム回答(明確化質問),ユーザ回答などである。
本研究は,会話の文脈に応じて,次の明確化問題を選択するタスクに焦点をあてる。
提案手法は,関係する候補の明確化質問の初期選択と,それらの候補を再評価するための2つのディープラーニングモデルの微調整に使用される経路探索を利用する。
論文 参考訳(メタデータ) (2021-12-14T11:27:16Z) - ReSCo-CC: Unsupervised Identification of Key Disinformation Sentences [3.7405995078130148]
本稿では,信頼できない文書に含まれる重要な偽情報を含む文を識別する新規な教師なしタスクを提案する。
そこで我々は,まず,タスク用に設計された特徴空間内に文を埋め込むことから始まる,3段階の統計的NLPソリューションを設計する。
本手法は, コア情報の同定を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2020-10-21T08:53:36Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。