論文の概要: Levenshtein Distance Embedding with Poisson Regression for DNA Storage
- arxiv url: http://arxiv.org/abs/2312.07931v1
- Date: Wed, 13 Dec 2023 07:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:21:56.643632
- Title: Levenshtein Distance Embedding with Poisson Regression for DNA Storage
- Title(参考訳): ポアソン回帰を組み込んだレベンシュテイン距離のDNA貯蔵への応用
- Authors: Xiang Wei, Alan J.X. Guo, Sihan Sun, Mengyi Wei, Wei Yu
- Abstract要約: シークエンス埋め込みは、レヴェンシュテイン距離を埋め込みベクトル間の従来の距離にマッピングする。
本稿では,ポアソン回帰を用いたニューラルネットワークを用いた新しいシーケンス埋め込み手法を提案する。
提案手法の最先端手法と比較して,提案手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.943376293527114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient computation or approximation of Levenshtein distance, a widely-used
metric for evaluating sequence similarity, has attracted significant attention
with the emergence of DNA storage and other biological applications. Sequence
embedding, which maps Levenshtein distance to a conventional distance between
embedding vectors, has emerged as a promising solution. In this paper, a novel
neural network-based sequence embedding technique using Poisson regression is
proposed. We first provide a theoretical analysis of the impact of embedding
dimension on model performance and present a criterion for selecting an
appropriate embedding dimension. Under this embedding dimension, the Poisson
regression is introduced by assuming the Levenshtein distance between sequences
of fixed length following a Poisson distribution, which naturally aligns with
the definition of Levenshtein distance. Moreover, from the perspective of the
distribution of embedding distances, Poisson regression approximates the
negative log likelihood of the chi-squared distribution and offers advancements
in removing the skewness. Through comprehensive experiments on real DNA storage
data, we demonstrate the superior performance of the proposed method compared
to state-of-the-art approaches.
- Abstract(参考訳): 配列類似性を評価するために広く用いられている指標であるレベンシュテイン距離の効率的な計算や近似は、DNA保存の出現や他の生物学的応用によって大きな注目を集めている。
レヴェンシュテイン距離を埋め込みベクトル間の従来の距離にマッピングするシークエンス埋め込みは有望な解として現れた。
本稿では,ポアソン回帰を用いたニューラルネットワークに基づく新しいシーケンス埋め込み手法を提案する。
まず,埋め込み次元がモデル性能に与える影響を理論的に分析し,適切な埋め込み次元を選択するための基準を示す。
この埋め込み次元の下では、ポアソン回帰はポアソン分布に従う固定長列間のレベンシュテイン距離を仮定し、これは自然にレベンシュテイン距離の定義と一致する。
さらに、埋め込み距離の分布の観点からは、ポアソン回帰はチ-二乗分布の負の対数確率を近似し、歪性を取り除くための進歩を与える。
実際のDNA貯蔵データに関する包括的実験を通じて,提案手法の最先端手法と比較して優れた性能を示す。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Sampling and estimation on manifolds using the Langevin diffusion [45.57801520690309]
離散化マルコフ過程に基づく$mu_phi $の線形汎函数の2つの推定器を検討する。
誤差境界は、本質的に定義されたランゲヴィン拡散の離散化を用いてサンプリングと推定のために導出される。
論文 参考訳(メタデータ) (2023-12-22T18:01:11Z) - Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Positive definite nonparametric regression using an evolutionary
algorithm with application to covariance function estimation [0.0]
定常過程の共分散関数を推定するための新しい非パラメトリック回帰フレームワークを提案する。
提案手法は, 正定性, 等方性, 単調性を推定者に課すことができる。
提案手法は,長距離依存に対する信頼性の高い推定値を提供する。
論文 参考訳(メタデータ) (2023-04-25T22:01:14Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Density Estimation with Autoregressive Bayesian Predictives [1.5771347525430772]
密度推定の文脈では、標準的なベイズ的アプローチは、後方予測をターゲットとする。
我々は、データを潜在空間にマッピングする自己回帰ニューラルネットワークを用いて、帯域幅の新たなパラメータ化を開発する。
論文 参考訳(メタデータ) (2022-06-13T20:43:39Z) - Stationary Density Estimation of It\^o Diffusions Using Deep Learning [6.8342505943533345]
離散時間系列からのエルゴード的伊藤拡散の定常測度に関連する密度推定問題を考察する。
我々は深層ニューラルネットワークを用いてSDEのドリフトと拡散の項を近似する。
我々は、適切な数学的仮定の下で提案されたスキームの収束を確立する。
論文 参考訳(メタデータ) (2021-09-09T01:57:14Z) - Instance-Optimal Compressed Sensing via Posterior Sampling [101.43899352984774]
後部サンプリング推定器がほぼ最適回復保証を達成できることを示す。
本稿では,Langevin dynamics を用いた深部生成前駆体の後方サンプリング推定器を実装し,MAP よりも精度の高い推定値が得られることを実証的に見出した。
論文 参考訳(メタデータ) (2021-06-21T22:51:56Z) - Statistical Inference after Kernel Ridge Regression Imputation under
item nonresponse [0.76146285961466]
カーネルリッジ回帰法による非パラメトリックな計算手法を考察し、一貫した分散推定を提案する。
提案した分散推定器はエントロピー法を用いて密度比を推定する線形化手法に基づいている。
論文 参考訳(メタデータ) (2021-01-29T20:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。