論文の概要: Convolutional Embedding for Edit Distance
- arxiv url: http://arxiv.org/abs/2001.11692v3
- Date: Fri, 22 May 2020 06:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 07:06:43.749095
- Title: Convolutional Embedding for Edit Distance
- Title(参考訳): 編集距離のための畳み込み
- Authors: Xinyan Dai, Xiao Yan, Kaiwen Zhou, Yuxuan Wang, Han Yang, James Cheng
- Abstract要約: CNN-EDは、編集距離をユークリッド距離に埋め込み、高速な近似類似性探索を行う。
CNN-EDは、正確性と効率の両面で、データ非依存のCGK埋め込みとRNNベースのGRU埋め込みを上回っている。
- 参考スコア(独自算出の注目度): 24.65097766064397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Edit-distance-based string similarity search has many applications such as
spell correction, data de-duplication, and sequence alignment. However,
computing edit distance is known to have high complexity, which makes string
similarity search challenging for large datasets. In this paper, we propose a
deep learning pipeline (called CNN-ED) that embeds edit distance into Euclidean
distance for fast approximate similarity search. A convolutional neural network
(CNN) is used to generate fixed-length vector embeddings for a dataset of
strings and the loss function is a combination of the triplet loss and the
approximation error. To justify our choice of using CNN instead of other
structures (e.g., RNN) as the model, theoretical analysis is conducted to show
that some basic operations in our CNN model preserve edit distance.
Experimental results show that CNN-ED outperforms data-independent CGK
embedding and RNN-based GRU embedding in terms of both accuracy and efficiency
by a large margin. We also show that string similarity search can be
significantly accelerated using CNN-based embeddings, sometimes by orders of
magnitude.
- Abstract(参考訳): 編集距離に基づく文字列類似性探索は、スペル訂正、データ重複解消、シーケンスアライメントなど多くの応用がある。
しかし、編集距離の計算は複雑であることが知られており、大きなデータセットでは文字列類似性探索が困難である。
本稿では,編集距離をユークリッド距離に埋め込み,高速近似類似度探索を行う深層学習パイプライン(cnn-ed)を提案する。
畳み込みニューラルネットワーク(cnn)を使用して文字列のデータセットに対する固定長ベクトル埋め込みを生成し、損失関数は三重項損失と近似誤差の組み合わせである。
モデルとして他の構造(例えばRNN)の代わりにCNNを使うという選択を正当化するために,我々のCNNモデルの基本操作が編集距離を保存することを示す理論的解析を行った。
実験の結果,CNN-EDはデータ非依存型CGK埋め込みやRNNベースGRU埋め込みよりも精度と効率の両面において優れていた。
また,文字列類似度探索はCNNベースの埋め込みを用いて,時には桁違いに高速化できることを示した。
関連論文リスト
- Revisiting CNNs for Trajectory Similarity Learning [20.311950784166388]
ConvTrajを導入し、1Dと2Dの畳み込みを併用して、トラジェクトリの逐次的および地理的分布の特徴を捉える。
軌道類似度探索において,ConvTrajが最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2024-05-30T07:16:03Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Do deep neural networks have an inbuilt Occam's razor? [1.1470070927586016]
構造データとOccam's razor-likeインダクティブバイアスが組み合わさった単純な関数に対する構造データは、複雑さを伴う関数の指数的成長に反することを示す。
この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑さを伴う関数の指数的成長に対抗できるほど強いことがDNNの成功の鍵であることが明らかになった。
論文 参考訳(メタデータ) (2023-04-13T16:58:21Z) - Model-based inexact graph matching on top of CNNs for semantic scene
understanding [6.106023882846558]
セマンティックセグメンテーションのためのディープラーニングパイプラインは、トレーニングに使用される注釈付きイメージで利用できる構造情報を無視することが多い。
本稿では,関心対象の構造的知識を付加した新しい後処理モジュールを提案し,セグメンテーション結果を改善する。
私たちのアプローチは、ディープラーニングメソッドのパフォーマンスを制限している小さなトレーニングデータセットに耐性があることが示されています。
論文 参考訳(メタデータ) (2023-01-18T12:23:10Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - What Can Be Learnt With Wide Convolutional Neural Networks? [69.55323565255631]
カーネルシステムにおける無限大の深層CNNについて検討する。
我々は,深部CNNが対象関数の空間スケールに適応していることを証明する。
我々は、別の深部CNNの出力に基づいて訓練された深部CNNの一般化誤差を計算して結論付ける。
論文 参考訳(メタデータ) (2022-08-01T17:19:32Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。