論文の概要: Phylo2Vec: a vector representation for binary trees
- arxiv url: http://arxiv.org/abs/2304.12693v3
- Date: Fri, 10 May 2024 14:31:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:46:40.835440
- Title: Phylo2Vec: a vector representation for binary trees
- Title(参考訳): Phylo2Vec:バイナリツリーのベクトル表現
- Authors: Matthew J Penn, Neil Scheidwasser, Mark P Khurana, David A Duchêne, Christl A Donnelly, Samir Bhatt,
- Abstract要約: 系統樹を模したPhylo2Vecについて紹介する。
系統樹を操作および表現するための統一的なアプローチとして機能する。
概念実証として、Phylo2Vecを用いて5つの実世界のデータセットの最大推定を行う。
- 参考スコア(独自算出の注目度): 0.49478969093606673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary phylogenetic trees inferred from biological data are central to understanding the shared history among evolutionary units. However, inferring the placement of latent nodes in a tree is NP-hard and thus computationally expensive. State-of-the-art methods rely on carefully designed heuristics for tree search. These methods use different data structures for easy manipulation (e.g., classes in object-oriented programming languages) and readable representation of trees (e.g., Newick-format strings). Here, we present Phylo2Vec, a parsimonious encoding for phylogenetic trees that serves as a unified approach for both manipulating and representing phylogenetic trees. Phylo2Vec maps any binary tree with $n$ leaves to a unique integer vector of length $n-1$. The advantages of Phylo2Vec are fourfold: i) fast tree sampling, (ii) compressed tree representation compared to a Newick string, iii) quick and unambiguous verification if two binary trees are identical topologically, and iv) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill-climbing-based optimisation scheme can efficiently traverse the vastness of tree space from a random to an optimal tree.
- Abstract(参考訳): 生物学的データから推定される2つの系統樹は、進化単位間の共有の歴史を理解する中心である。
しかし、木内の潜伏ノードの配置を推定することはNPハードであり、計算コストがかかる。
最先端の手法は、木探索のために慎重に設計されたヒューリスティックに依存している。
これらのメソッドは、さまざまなデータ構造を使用して、容易に操作できる(オブジェクト指向プログラミング言語のクラスなど)。
本稿では,系統樹を操作および表現するための統一的なアプローチとして機能する系統樹の相同的エンコーディングであるPhylo2Vecを紹介する。
Phylo2Vecは、$n$の葉を持つ任意の二分木を長さ$n-1$のユニークな整数ベクトルにマッピングする。
Phylo2Vecの利点は4つある。
一 速い樹木の採集
(ii)ニューミック文字列と比較して圧縮木表現
三 二つの二分木が位相的に同一であるときの迅速かつ曖昧な検証及び
iv) 非常に大きな又は小さなジャンプで木の空間を横断する体系的な能力。
概念実証として,Phylo2Vecを実世界の5つのデータセットの最大推定に使用し,単純なヒルクライミングに基づく最適化スキームがランダムから最適木へのツリー空間の広さを効率的にトラバース可能であることを示す。
関連論文リスト
- Learning a Decision Tree Algorithm with Transformers [80.49817544396379]
本稿では,従来のアルゴリズムから出力されたフィルタを用いてトランスフォーマーモデルを用いて,分類のための強力な決定木を生成するメタトレーについて紹介する。
次にMetaTreeをトレーニングして、強力な一般化パフォーマンスを実現するツリーを生成します。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - MAPTree: Beating "Optimal" Decision Trees with Bayesian Decision Trees [2.421336072915701]
本稿では,決定木誘導に対するベイズ的アプローチを提案する。
そこで我々は,MAPTreeとよばれるAND/OR探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-26T23:43:37Z) - On Computing Optimal Tree Ensembles [8.941441654913644]
ランダム林や、より一般的には(決定ノブレイクダッシュ-)ツリーアンサンブルは、分類と回帰の方法として広く使われている。
最近のアルゴリズムの進歩は、そのサイズや深さなどの様々な測定に最適な決定木を計算することができる。
2つの新しいアルゴリズムと対応する下位境界を提供する。
論文 参考訳(メタデータ) (2023-06-07T13:30:43Z) - Structure-Unified M-Tree Coding Solver for MathWord Problem [57.825176412485504]
従来,数式表現の2次木構造を考慮に入れたモデルでは,性能が向上した。
本稿では、出力構造を統一するために、任意のM枝(M-tree)を持つ木を適用した構造統一M-Tree符号化(S-UMCr)を提案する。
広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-rが複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-10-22T12:20:36Z) - Learning Tree Structures from Leaves For Particle Decay Reconstruction [0.0]
本稿では,階層的相互作用を記述したルート木グラフを再構築するためのニューラルネットワークを提案し,その表現をLCAG(Lowest Common Ancestor Generations)行列と呼ぶ。
LCAGを葉の特徴から正確に予測することができ、最大で8ドル、最大で9.2.5%のケースは6ドルまでの葉(含む)と、シミュレーションデータセットで最大10ドルまでのツリーに対して59.7%のケースである。
論文 参考訳(メタデータ) (2022-08-31T15:36:47Z) - Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。
STDRの分割ステップは非ランダムです。
代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。
私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文 参考訳(メタデータ) (2021-02-26T02:47:42Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - SGA: A Robust Algorithm for Partial Recovery of Tree-Structured
Graphical Models with Noisy Samples [75.32013242448151]
ノードからの観測が独立しているが非識別的に分散ノイズによって破損した場合、Ising Treeモデルの学習を検討する。
Katiyarら。
(2020) は, 正確な木構造は復元できないが, 部分木構造を復元できることを示した。
統計的に堅牢な部分木回復アルゴリズムであるSymmetrized Geometric Averaging(SGA)を提案する。
論文 参考訳(メタデータ) (2021-01-22T01:57:35Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。