論文の概要: TreeGen -- a Monte Carlo generator for data frames
- arxiv url: http://arxiv.org/abs/2011.08922v1
- Date: Tue, 17 Nov 2020 20:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 18:00:07.503770
- Title: TreeGen -- a Monte Carlo generator for data frames
- Title(参考訳): TreeGen -- データフレーム用のモンテカルロジェネレータ
- Authors: Agnieszka Niemczynowicz, Gabriela Bia{\l}osk\'orska, Joanna
Nie\.zurawska-Zaj\k{a}c, Rados{\l}aw A. Kycia
- Abstract要約: 本稿では,決定木の拡張である確率木抽象データ構造について述べる。
このパッケージは、データの乗法性の向上、統計情報を保存するデータの圧縮、階層モデルの構築、データ探索、特徴抽出に使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The typical problem in Data Science is creating a structure that encodes the
occurrence frequency of unique elements in rows and relations between different
rows of a data frame. We present the probability tree abstract data structure,
an extension of the decision tree, that facilitates more than two choices with
assigned probabilities. Such a tree represents statistical relations between
different rows of the data frame. The Probability Tree algorithmic structure is
supplied with the Generator module that is a Monte Carlo generator that
traverses through the tree. These two components are implemented in TreeGen
Python package. The package can be used in increasing data multiplicity,
compressing data preserving its statistical information, constructing
hierarchical models, exploring data, and in feature extraction.
- Abstract(参考訳): データサイエンスの典型的な問題は、行内のユニークな要素の発生頻度と、データフレームの異なる行間の関係をエンコードする構造を作ることである。
本稿では,決定木の拡張である確率木抽象データ構造について述べる。
このような木は、データフレームの異なる行間の統計的関係を表す。
Probability Treeのアルゴリズム構造は、モンテカルロ・ジェネレータであるジェネレータモジュールに供給され、ツリーを横切る。
この2つのコンポーネントは、TreeGen Pythonパッケージに実装されている。
このパッケージは、データの多重度の向上、統計情報を保存するデータの圧縮、階層モデルの構築、データの探索、特徴抽出に使用することができる。
関連論文リスト
- Terminating Differentiable Tree Experts [77.2443883991608]
本稿では,変圧器と表現生成器の組み合わせを用いて木操作を学習するニューラルシンボリック微分木機械を提案する。
まず、専門家の混在を導入することで、各ステップで使用される一連の異なるトランスフォーマーレイヤを取り除きます。
また,モデルが自動生成するステップ数を選択するための新しい終端アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:45:38Z) - Tree Variational Autoencoders [5.992683455757179]
本稿では,潜在変数上の柔軟木に基づく後続分布を学習する階層的階層クラスタリングモデルを提案する。
TreeVAEは、本質的な特徴に従ってサンプルを階層的に分割し、データ内の隠れた構造に光を遮る。
論文 参考訳(メタデータ) (2023-06-15T09:25:04Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Tree Learning: Optimal Algorithms and Sample Complexity [10.638365461509]
任意の分布から抽出したラベル付きサンプルから,データの階層木表現を学習する問題について検討する。
本稿では,この問題に対する最適なサンプル境界を,学習やオンライン学習など,いくつかの学習環境において提示する。
論文 参考訳(メタデータ) (2023-02-09T08:35:17Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Structure-Unified M-Tree Coding Solver for MathWord Problem [57.825176412485504]
従来,数式表現の2次木構造を考慮に入れたモデルでは,性能が向上した。
本稿では、出力構造を統一するために、任意のM枝(M-tree)を持つ木を適用した構造統一M-Tree符号化(S-UMCr)を提案する。
広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-rが複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-10-22T12:20:36Z) - Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。
STDRの分割ステップは非ランダムです。
代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。
私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文 参考訳(メタデータ) (2021-02-26T02:47:42Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - Extreme-K categorical samples problem [0.41998444721319206]
我々は,極値のサンプル問題の下で,カテゴリ的探索データ分析(CEDA)を開発する。
信頼性を評価するため,行列模倣のアンサンブルを生成するために,行ごとの多項ランダム性を採用する。
CEDAの4つの応用は、極端な$Kのサンプル問題の4つの重要な側面を照らす。
論文 参考訳(メタデータ) (2020-07-29T18:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。