論文の概要: Contextual Chart Generation for Cyber Deception
- arxiv url: http://arxiv.org/abs/2404.04854v1
- Date: Sun, 7 Apr 2024 07:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:20:53.175171
- Title: Contextual Chart Generation for Cyber Deception
- Title(参考訳): サイバー詐欺の文脈チャート生成
- Authors: David D. Nguyen, David Liebowitz, Surya Nepal, Salil S. Kanhere, Sharif Abuadbba,
- Abstract要約: ハニーファイルは、侵害されたシステムの侵入者を惹きつけ、検出するために設計されたセキュリティ資産である。
本稿では,ハニーファイルコンテンツ生成問題の重要な構成要素である文書チャートに焦点を当てる。
2つの目的に構築された生成モデルを組み合わせることで、この問題に対してマルチモーダルなアプローチをとる。
- 参考スコア(独自算出の注目度): 19.644039720052263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Honeyfiles are security assets designed to attract and detect intruders on compromised systems. Honeyfiles are a type of honeypot that mimic real, sensitive documents, creating the illusion of the presence of valuable data. Interaction with a honeyfile reveals the presence of an intruder, and can provide insights into their goals and intentions. Their practical use, however, is limited by the time, cost and effort associated with manually creating realistic content. The introduction of large language models has made high-quality text generation accessible, but honeyfiles contain a variety of content including charts, tables and images. This content needs to be plausible and realistic, as well as semantically consistent both within honeyfiles and with the real documents they mimic, to successfully deceive an intruder. In this paper, we focus on an important component of the honeyfile content generation problem: document charts. Charts are ubiquitous in corporate documents and are commonly used to communicate quantitative and scientific data. Existing image generation models, such as DALL-E, are rather prone to generating charts with incomprehensible text and unconvincing data. We take a multi-modal approach to this problem by combining two purpose-built generative models: a multitask Transformer and a specialized multi-head autoencoder. The Transformer generates realistic captions and plot text, while the autoencoder generates the underlying tabular data for the plot. To advance the field of automated honeyplot generation, we also release a new document-chart dataset and propose a novel metric Keyword Semantic Matching (KSM). This metric measures the semantic consistency between keywords of a corpus and a smaller bag of words. Extensive experiments demonstrate excellent performance against multiple large language models, including ChatGPT and GPT4.
- Abstract(参考訳): ハニーファイルは、侵害されたシステムの侵入者を惹きつけ、検出するために設計されたセキュリティ資産である。
ハニーファイルは、本物の機密文書を模倣し、貴重なデータの存在を錯覚させるハニーポットの一種である。
ハニーファイルとの相互作用は侵入者の存在を明らかにし、彼らの目標と意図に関する洞察を与える。
しかし、彼らの実践的利用は、手動で現実的なコンテンツを作成することに関連する時間、コスト、労力によって制限されている。
大規模言語モデルの導入により、高品質なテキスト生成が可能になったが、ハニーファイルには、チャート、テーブル、画像など、さまざまなコンテンツが含まれている。
このコンテンツは、ハニーファイル内と、それらが模倣する実際のドキュメントの両方で意味的に一貫性があり、侵入者を欺くことに成功しなければなりません。
本稿では,ハニーファイルコンテンツ生成問題において重要な要素である文書チャートに焦点をあてる。
チャートは企業文書で広く知られており、量的および科学的なデータを伝えるのに一般的に使われている。
DALL-Eのような既存の画像生成モデルは、理解不能なテキストと理解不能なデータでチャートを生成する傾向がある。
我々は,マルチタスク変換器と特殊マルチヘッドオートエンコーダという2つの目的に構築された生成モデルを組み合わせることで,この問題に対してマルチモーダルなアプローチをとる。
Transformerはリアルなキャプションとプロットテキストを生成し、オートエンコーダはプロットの基盤となる表データを生成する。
自動ミツバチ生成の分野を前進させるために、新しい文書チャートデータセットもリリースし、新しいキーワードセマンティックマッチング(KSM)を提案する。
この尺度は、コーパスのキーワードとより小さな単語の袋の間の意味的一貫性を測定する。
大規模な実験では、ChatGPTやGPT4など、複数の大きな言語モデルに対して優れたパフォーマンスを示している。
関連論文リスト
- SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - Modelling Direct Messaging Networks with Multiple Recipients for Cyber
Deception [13.447335354083666]
本稿では,電子メールとインスタントメッセージ形式のグループ通信を大規模に自動生成するフレームワークを提案する。
我々は,このタイプのシステムをシミュレーションする2つの重要な側面に対処する: 参加者がいつ,誰と通信するかをモデル化し,また,話題の多人数のテキストを生成して,シミュレートされた会話スレッドをポップアップさせる。
我々は,マルチパーティ会話スレッドを生成するために,微調整,事前訓練された言語モデルを用いることを実証する。
論文 参考訳(メタデータ) (2021-11-21T10:18:48Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。