論文の概要: DeepLSH: Deep Locality-Sensitive Hash Learning for Fast and Efficient
Near-Duplicate Crash Report Detection
- arxiv url: http://arxiv.org/abs/2310.06703v1
- Date: Tue, 10 Oct 2023 15:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:59:32.548819
- Title: DeepLSH: Deep Locality-Sensitive Hash Learning for Fast and Efficient
Near-Duplicate Crash Report Detection
- Title(参考訳): DeepLSH: 高速かつ高効率に近いクラッシュレポート検出のための深部局所感性ハッシュ学習
- Authors: Youcef Remil and Anes Bendimerad and Romain Mathonat and Chedy Raissi
and Mehdi Kaytoue
- Abstract要約: リアルタイムストリーミングバグ収集では、システムはすぐに質問に答える必要がある: 新しいバグと最もよく似たバグは何か?
LSHは、クラッシュバケットの文献では考慮されていない。
本稿では、局所性感度特性を完璧に近似した、元の損失関数を持つシームズアーキテクチャであるDeepLSHを紹介する。
- 参考スコア(独自算出の注目度): 0.29998889086656577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic crash bucketing is a crucial phase in the software development
process for efficiently triaging bug reports. It generally consists in grouping
similar reports through clustering techniques. However, with real-time
streaming bug collection, systems are needed to quickly answer the question:
What are the most similar bugs to a new one?, that is, efficiently find
near-duplicates. It is thus natural to consider nearest neighbors search to
tackle this problem and especially the well-known locality-sensitive hashing
(LSH) to deal with large datasets due to its sublinear performance and
theoretical guarantees on the similarity search accuracy. Surprisingly, LSH has
not been considered in the crash bucketing literature. It is indeed not trivial
to derive hash functions that satisfy the so-called locality-sensitive property
for the most advanced crash bucketing metrics. Consequently, we study in this
paper how to leverage LSH for this task. To be able to consider the most
relevant metrics used in the literature, we introduce DeepLSH, a Siamese DNN
architecture with an original loss function, that perfectly approximates the
locality-sensitivity property even for Jaccard and Cosine metrics for which
exact LSH solutions exist. We support this claim with a series of experiments
on an original dataset, which we make available.
- Abstract(参考訳): 自動クラッシュバケットは、バグレポートを効率的にトリガするソフトウェア開発プロセスにおいて重要なフェーズである。
一般的には、クラスタリング技術を通じて同様のレポートをグループ化する。
しかし、リアルタイムストリーミングのバグ収集では、システムはすぐに質問に答える必要がある。
すなわち、近接重複を効率的に発見する。
したがって、この問題に取り組むために最寄りの近傍探索を考えることは自然であり、特によく知られた局所性に敏感なハッシュ(lsh)は、そのサブリニアな性能と類似性の検索精度に関する理論的保証のため、大きなデータセットを扱う。
驚いたことに、LSHはクラッシュバケットの文献では考慮されていない。
実際、最も高度なクラッシュバケットメトリクスのいわゆる局所性に敏感な特性を満たすハッシュ関数を導出するのは簡単ではない。
そこで本稿では,この課題にLSHを活用する方法について検討する。
文献で使用される最も関連性の高いメトリクスを考察するために,本論文では,正確なLSHソリューションが存在する Jaccard と Cosine のメトリクスであっても,局所性感度特性を完璧に近似する,シームズDNN アーキテクチャである DeepLSH を紹介する。
私たちはこの主張を,オリジナルデータセットに関する一連の実験でサポートしています。
関連論文リスト
- Fast Locality Sensitive Hashing with Theoretical Guarantee [5.635783105833339]
局所性に敏感なハッシュ(LSH)は、多くの機械学習タスクで広く使われている効果的なランダム化手法である。
本稿では,l2 ノルムの下で,FastLSH という名前の簡易かつ効率的な LSH スキームを設計する。
ランダムサンプリングとランダムプロジェクションを組み合わせることで、FastLSHは時間複雑性を O(n) から O(m) (mn) に還元する。
実験結果から,FastLSHは回答の品質,空間占有,クエリ効率の面で,最先端技術と同等であることがわかった。
論文 参考訳(メタデータ) (2023-09-27T08:21:38Z) - Unsupervised Hashing with Similarity Distribution Calibration [127.34239817201549]
教師なしハッシュ法は、特徴空間内のデータポイント間の類似性をバイナリハッシュコードにマッピングすることで保存することを目的としている。
これらの方法は、連続的な特徴空間におけるデータポイント間の類似性が離散的なハッシュコード空間に保存されないという事実をしばしば見落としている。
類似性範囲はコードの長さによって制限され、類似性崩壊と呼ばれる問題を引き起こす可能性がある。
本稿では,この問題を緩和する新しい類似度分布法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:06:39Z) - Global Learnable Attention for Single Image Super-Resolution [68.2129989450593]
本稿では,非局所的なテクスチャの類似度スコアを適応的に修正するグローバル学習型注意(GLA)を提案する。
GLAは、低相似性を持つ非局所的なテクスチャを探索できるが、より正確なディテールにより、深刻な損傷のあるテクスチャを修復することができる。
GLAに基づいて、SISRタスクの最先端性能を実現するためのDLSN(Deep Learnable similarity Network)を構築した。
論文 参考訳(メタデータ) (2022-12-02T09:47:21Z) - Experimental Analysis of Machine Learning Techniques for Finding Search
Radius in Locality Sensitive Hashing [0.9137554315375919]
局所感性ハッシュ (Locality Sensitive Hashing, LSH) は、高次元空間の近接探索技術として最も一般的なものの一つである。
機械学習を利用するために、半径最適化局所感性ハッシュ(roLSH)と呼ばれる改良されたLSHベースのインデックス構造が提案されている。
論文 参考訳(メタデータ) (2022-11-16T18:19:10Z) - SLOSH: Set LOcality Sensitive Hashing via Sliced-Wasserstein Embeddings [18.916058638077274]
本稿では,ANN (Non-parametric and data-independent learning from set-structured data using almost near neighbor (ANN) solutions。
Sliced-Wasserstein set embedding as a computerly efficient "set-2-vector" mechanism that possible downstream ANN。
本稿では,SLOSH (Set-LOcality Sensitive Hashing) と呼ばれるアルゴリズムの有効性を,様々なデータセットで示す。
論文 参考訳(メタデータ) (2021-12-11T00:10:05Z) - A Fast Randomized Algorithm for Massive Text Normalization [26.602776972067936]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。
本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。
実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-06T19:18:17Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。