論文の概要: Learning from String Sequences
- arxiv url: http://arxiv.org/abs/2405.06301v1
- Date: Fri, 10 May 2024 08:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:17:47.085821
- Title: Learning from String Sequences
- Title(参考訳): 文字列配列から学ぶ
- Authors: David Lindsay, Sian Lindsay,
- Abstract要約: ユニバーサル類似度メトリック(USM)は、シーケンスデータ間の「類似性」の実用的な測定方法として実証されている。
我々は,K-Nearest Neighbours(K-NN)学習者において,USMを代替距離測定基準として使用して,可変長シーケンスデータの効果的なパターン認識を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Universal Similarity Metric (USM) has been demonstrated to give practically useful measures of "similarity" between sequence data. Here we have used the USM as an alternative distance metric in a K-Nearest Neighbours (K-NN) learner to allow effective pattern recognition of variable length sequence data. We compare this USM approach with the commonly used string-to-word vector approach. Our experiments have used two data sets of divergent domains: (1) spam email filtering and (2) protein subcellular localization. Our results with this data reveal that the USM-based K-NN learner (1) gives predictions with higher classification accuracy than those output by techniques that use the string-to-word vector approach, and (2) can be used to generate reliable probability forecasts.
- Abstract(参考訳): ユニバーサル類似度メトリック(USM)は、シーケンスデータ間の「類似性」の実用的な測定方法として実証されている。
そこで我々は,K-Nearest Neighbours(K-NN)学習者において,USMを代替距離測定として使用し,可変長シーケンスデータの効果的なパターン認識を実現した。
我々は、このUSMアプローチを、一般的に使われている文字列対ワードベクトルアプローチと比較する。
実験では,(1)スパムメールフィルタリングと(2)タンパク質細胞内局在の2つの領域のデータを用いた。
この結果から,USMをベースとしたK-NN学習者(1)は,文字列対ワードベクトル手法を用いて出力した手法よりも高い分類精度で予測を行い,(2)信頼できる確率予測を生成することができることがわかった。
関連論文リスト
- Ensemble of classifiers for speech evaluation [0.0]
本稿では,医学における音声評価の問題を解決するために,バイナリ分類器のアンサンブルを適用しようとする試みについて述べる。
音節の発音品質の定量的および専門的な評価に基づいてデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-29T17:28:32Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - Evaluating COVID-19 Sequence Data Using Nearest-Neighbors Based Network
Model [0.0]
SARS-CoV-2(SARS-CoV-2)は、ヒトの新型コロナウイルス感染症の原因である。
異なる宿主に適応し、異なる系統に進化することができる。
主要なSARS-CoV-2系統はスパイクタンパク質で主に起こる突然変異によって特徴づけられることが知られている。
論文 参考訳(メタデータ) (2022-11-19T00:34:02Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Nearest Neighbor Zero-Shot Inference [68.56747574377215]
kNN-Promptは、言語モデル(LM)を用いたゼロショット推論のためのk-nearest neighbor (kNN)検索拡張手法である。
ファジィ動詞化器は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクのスパースkNN分布を利用する。
実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。
論文 参考訳(メタデータ) (2022-05-27T07:00:59Z) - A Comparative Study on Transfer Learning and Distance Metrics in
Semantic Clustering over the COVID-19 Tweets [8.56191214166276]
本論文は、新型コロナウイルスデータにおけるトピック検出の文脈における比較研究である。
本研究の目的は, 埋め込み法, 距離測定, クラスタリング法の3つの要素を同時に研究することである。
論文 参考訳(メタデータ) (2021-11-16T17:44:24Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Anomaly Detection: How to Artificially Increase your F1-Score with a
Biased Evaluation Protocol [0.11470070927586014]
異常検出は機械学習において広く研究されている領域である。
パフォーマンスを比較するために使用される最も一般的なメトリクスは、F1スコア、AUC、AVPRである。
F1スコアとAVPRは汚染率に非常に敏感である。
論文 参考訳(メタデータ) (2021-06-30T12:36:01Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。