論文の概要: Phylo2Vec: a vector representation for binary trees
- arxiv url: http://arxiv.org/abs/2304.12693v4
- Date: Mon, 04 Nov 2024 15:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:55:30.365530
- Title: Phylo2Vec: a vector representation for binary trees
- Title(参考訳): Phylo2Vec:バイナリツリーのベクトル表現
- Authors: Matthew J Penn, Neil Scheidwasser, Mark P Khurana, David A Duchêne, Christl A Donnelly, Samir Bhatt,
- Abstract要約: 系統樹を模したPhylo2Vecについて紹介する。
系統樹を操作および表現するための統一的なアプローチとして機能する。
概念実証として、Phylo2Vecを用いて5つの実世界のデータセットの最大推定を行う。
- 参考スコア(独自算出の注目度): 0.49478969093606673
- License:
- Abstract: Binary phylogenetic trees inferred from biological data are central to understanding the shared history among evolutionary units. However, inferring the placement of latent nodes in a tree is computationally expensive. State-of-the-art methods rely on carefully designed heuristics for tree search, using different data structures for easy manipulation (e.g., classes in object-oriented programming languages) and readable representation of trees (e.g., Newick-format strings). Here, we present Phylo2Vec, a parsimonious encoding for phylogenetic trees that serves as a unified approach for both manipulating and representing phylogenetic trees. Phylo2Vec maps any binary tree with $n$ leaves to a unique integer vector of length $n-1$. The advantages of Phylo2Vec are fourfold: i) fast tree sampling, (ii) compressed tree representation compared to a Newick string, iii) quick and unambiguous verification if two binary trees are identical topologically, and iv) systematic ability to traverse tree space in very large or small jumps. As a proof of concept, we use Phylo2Vec for maximum likelihood inference on five real-world datasets and show that a simple hill-climbing-based optimisation scheme can efficiently traverse the vastness of tree space from a random to an optimal tree.
- Abstract(参考訳): 生物学的データから推定される2つの系統樹は、進化単位間の共有の歴史を理解する中心である。
しかし、木内の潜伏ノードの配置を推定するのは計算コストがかかる。
State-of-the-artメソッドは、ツリー検索のために慎重に設計されたヒューリスティックに頼り、さまざまなデータ構造を使って操作しやすく(オブジェクト指向プログラミング言語のクラスなど)、ツリーの読みやすい表現(ニューミック形式文字列など)。
本稿では,系統樹を操作および表現するための統一的なアプローチとして機能する系統樹の相同的エンコーディングであるPhylo2Vecを紹介する。
Phylo2Vecは、$n$の葉を持つ任意の二分木を長さ$n-1$のユニークな整数ベクトルにマッピングする。
Phylo2Vecの利点は4つある。
一 速い樹木の採集
(ii)ニューミック文字列と比較して圧縮木表現
三 二つの二分木が位相的に同一であるときの迅速かつ曖昧な検証及び
iv) 非常に大きな又は小さなジャンプで木の空間を横断する体系的な能力。
概念実証として,Phylo2Vecを実世界の5つのデータセットの最大推定に使用し,単純なヒルクライミングに基づく最適化スキームがランダムから最適木へのツリー空間の広さを効率的にトラバース可能であることを示す。
関連論文リスト
- Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - MAPTree: Beating "Optimal" Decision Trees with Bayesian Decision Trees [2.421336072915701]
本稿では,決定木誘導に対するベイズ的アプローチを提案する。
そこで我々は,MAPTreeとよばれるAND/OR探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-26T23:43:37Z) - Structure-Unified M-Tree Coding Solver for MathWord Problem [57.825176412485504]
従来,数式表現の2次木構造を考慮に入れたモデルでは,性能が向上した。
本稿では、出力構造を統一するために、任意のM枝(M-tree)を持つ木を適用した構造統一M-Tree符号化(S-UMCr)を提案する。
広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-rが複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-10-22T12:20:36Z) - Learning Tree Structures from Leaves For Particle Decay Reconstruction [0.0]
本稿では,階層的相互作用を記述したルート木グラフを再構築するためのニューラルネットワークを提案し,その表現をLCAG(Lowest Common Ancestor Generations)行列と呼ぶ。
LCAGを葉の特徴から正確に予測することができ、最大で8ドル、最大で9.2.5%のケースは6ドルまでの葉(含む)と、シミュレーションデータセットで最大10ドルまでのツリーに対して59.7%のケースである。
論文 参考訳(メタデータ) (2022-08-31T15:36:47Z) - Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。
STDRの分割ステップは非ランダムです。
代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。
私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文 参考訳(メタデータ) (2021-02-26T02:47:42Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - SGA: A Robust Algorithm for Partial Recovery of Tree-Structured
Graphical Models with Noisy Samples [75.32013242448151]
ノードからの観測が独立しているが非識別的に分散ノイズによって破損した場合、Ising Treeモデルの学習を検討する。
Katiyarら。
(2020) は, 正確な木構造は復元できないが, 部分木構造を復元できることを示した。
統計的に堅牢な部分木回復アルゴリズムであるSymmetrized Geometric Averaging(SGA)を提案する。
論文 参考訳(メタデータ) (2021-01-22T01:57:35Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - Born-Again Tree Ensembles [9.307453801175177]
ツリーアンサンブルは、様々な領域で優れた予測品質を提供するが、複数のツリーの同時使用により、アンサンブルの解釈可能性が低下する。
本研究では,その特徴空間全体において,与えられたツリーのアンサンブルと全く同じ振る舞いを再現する,最小サイズの1つの決定木を構築する過程について検討する。
このアルゴリズムは、実践的な関心のある多くのデータセットに対して最適な生長木を生成する。
論文 参考訳(メタデータ) (2020-03-24T22:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。