論文の概要: Synthetic Datasets for Program Similarity Research
- arxiv url: http://arxiv.org/abs/2405.03478v1
- Date: Mon, 6 May 2024 13:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:36:52.047164
- Title: Synthetic Datasets for Program Similarity Research
- Title(参考訳): プログラム類似性研究のための合成データセット
- Authors: Alexander Interrante-Grant, Michael Wang, Lisa Baer, Ryan Whelan, Tim Leek,
- Abstract要約: HELIXは、大規模な合成プログラム類似性データセットを生成するためのフレームワークである。
Blind HELIXは、HELIX上に構築され、プログラムスライシングを使用してライブラリコードからHELIXコンポーネントを抽出するツールである。
- 参考スコア(独自算出の注目度): 39.91303506884272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Program similarity has become an increasingly popular area of research with various security applications such as plagiarism detection, author identification, and malware analysis. However, program similarity research faces a few unique dataset quality problems in evaluating the effectiveness of novel approaches. First, few high-quality datasets for binary program similarity exist and are widely used in this domain. Second, there are potentially many different, disparate definitions of what makes one program similar to another and in many cases there is often a large semantic gap between the labels provided by a dataset and any useful notion of behavioral or semantic similarity. In this paper, we present HELIX - a framework for generating large, synthetic program similarity datasets. We also introduce Blind HELIX, a tool built on top of HELIX for extracting HELIX components from library code automatically using program slicing. We evaluate HELIX and Blind HELIX by comparing the performance of program similarity tools on a HELIX dataset to a hand-crafted dataset built from multiple, disparate notions of program similarity. Using Blind HELIX, we show that HELIX can generate realistic and useful datasets of virtually infinite size for program similarity research with ground truth labels that embody practical notions of program similarity. Finally, we discuss the results and reason about relative tool ranking.
- Abstract(参考訳): プログラムの類似性は、盗作検出、著者の識別、マルウェア分析など、様々なセキュリティアプリケーションで研究が盛んに行われている。
しかし、プログラム類似性の研究は、新しいアプローチの有効性を評価する際に、いくつかのユニークなデータセット品質の問題に直面している。
第一に、バイナリプログラム類似性のための高品質なデータセットはほとんど存在せず、この領域で広く使われている。
第二に、あるプログラムが他のプログラムと類似している理由について、潜在的に多くの異なる異なる異なる定義があり、多くの場合、データセットによって提供されるラベルと、振る舞いや意味的な類似性に関する有用な概念との間に大きな意味的ギャップがある。
本稿では,大規模で合成されたプログラム類似性データセットを生成するためのフレームワークであるHELIXを提案する。
また,HELIX上に構築されたBlind HELIXは,プログラムスライシングを用いて,ライブラリコードからHELIXコンポーネントを抽出するツールである。
HELIX と Blind HELIX を,HELIX データセット上のプログラム類似性ツールの性能と,プログラム類似性の概念を多種多様な概念から構築した手作りデータセットを比較して評価した。
Blind HELIXを用いて、HELIXは、プログラム類似性の実践的概念を具現化した、地上の真理ラベルを用いたプログラム類似性研究のために、事実上無限大の現実的で有用なデータセットを生成することができることを示す。
最後に、相対ツールランキングの結果と理由について論じる。
関連論文リスト
- Outlier Detection in Large Radiological Datasets using UMAP [1.206248959194646]
バイオメディカルデータでは、画像の品質、ラベル付け、レポート、アーカイブのバリエーションは、エラー、矛盾、繰り返しサンプルにつながる可能性がある。
ここでは、一様多様体近似および射影アルゴリズムが、本質的には独立クラスタを形成することによってこれらの異常を見つけることができることを示す。
結果はアーカイブとふりかえりですが、グラフベースのメソッドはどんなデータ型でも機能します。
論文 参考訳(メタデータ) (2024-07-31T00:56:06Z) - Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures [0.0]
本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
論文 参考訳(メタデータ) (2024-05-03T13:42:49Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - User-friendly Comparison of Similarity Algorithms on Wikidata [2.8551587610394904]
ウィキデータにおけるQnode間の類似性のフレキシブルな計算を可能にするユーザフレンドリーなインタフェースを提案する。
現在、類似性インタフェースは、グラフ埋め込み(TransE、ComplEx)、テキスト埋め込み(BERT)、クラスベースの類似性という4つのアルゴリズムをサポートしている。
また、Wikidataの任意のQnodeに対して、最もよく似た隣人を計算できるREST APIも提供しています。
論文 参考訳(メタデータ) (2021-08-11T18:59:25Z) - Hierarchical Similarity Learning for Language-based Product Image
Retrieval [40.83290730640458]
本稿では,クロスモーダル類似度測定に着目し,新しい階層的類似度学習ネットワークを提案する。
大規模製品検索データセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-18T14:23:16Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。