論文の概要: Random Similarity Forests
- arxiv url: http://arxiv.org/abs/2204.05389v1
- Date: Mon, 11 Apr 2022 20:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 06:30:11.386199
- Title: Random Similarity Forests
- Title(参考訳): ランダム類似性森林
- Authors: Maciej Piernik, Dariusz Brzezinski, Pawel Zawadzki
- Abstract要約: 本稿では,任意のデータ型の特徴を持つデータセットを,各特徴の特徴を保ちながら扱える分類法を提案する。
提案したアルゴリズムはランダム類似林(Random similarity Forest)と呼ばれ、複数のドメイン固有の距離測定を用いて、ランダム類似林(Random Forests)の予測性能と類似林(Random similarity Forests)の柔軟性を組み合わせている。
ランダム類似林はRandom Forestsの数値データと同等であり、複雑なデータドメインや混合データドメインのデータセットよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The wealth of data being gathered about humans and their surroundings drives
new machine learning applications in various fields. Consequently, more and
more often, classifiers are trained using not only numerical data but also
complex data objects. For example, multi-omics analyses attempt to combine
numerical descriptions with distributions, time series data, discrete
sequences, and graphs. Such integration of data from different domains requires
either omitting some of the data, creating separate models for different
formats, or simplifying some of the data to adhere to a shared scale and
format, all of which can hinder predictive performance. In this paper, we
propose a classification method capable of handling datasets with features of
arbitrary data types while retaining each feature's characteristic. The
proposed algorithm, called Random Similarity Forest, uses multiple
domain-specific distance measures to combine the predictive performance of
Random Forests with the flexibility of Similarity Forests. We show that Random
Similarity Forests are on par with Random Forests on numerical data and
outperform them on datasets from complex or mixed data domains. Our results
highlight the applicability of Random Similarity Forests to noisy, multi-source
datasets that are becoming ubiquitous in high-impact life science projects.
- Abstract(参考訳): 人間とその周辺に関する豊富なデータ収集は、さまざまな分野で新しい機械学習アプリケーションを生み出している。
その結果、より頻繁に、分類器は数値データだけでなく複雑なデータオブジェクトを使って訓練される。
例えば、マルチオミクス分析では、数値記述を分布、時系列データ、離散シーケンス、グラフと組み合わせようとしている。
このような異なるドメインからのデータの統合には、データのいくつかを省略するか、異なるフォーマットの別々のモデルを作成するか、あるいは共有スケールとフォーマットに従うためにデータの一部を単純化する必要がある。
本稿では,各特徴の特徴を維持しつつ,任意のデータ型の特徴を持つデータセットを扱える分類法を提案する。
ランダム類似性フォレストと呼ばれるアルゴリズムは、ランダムフォレストの予測性能と類似性フォレストの柔軟性を組み合わせるために、複数の領域特異的距離尺度を用いる。
ランダム類似林はRandom Forestsの数値データと同等であり、複雑なデータドメインや混合データドメインのデータセットよりも優れていることを示す。
本研究では,高インパクトライフサイエンスプロジェクトにおいてユビキタス化が進んでいるマルチソースデータセットに対するランダム類似性森林の適用性に注目した。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Flexible inference in heterogeneous and attributed multilayer networks [21.349513661012498]
我々は任意の種類の情報を持つ多層ネットワークで推論を行う確率的生成モデルを開発した。
インド農村部における社会支援ネットワークにおける様々なパターンを明らかにする能力を示す。
論文 参考訳(メタデータ) (2024-05-31T15:21:59Z) - Federated Random Forest for Partially Overlapping Clinical Data [0.5062312533373298]
本研究は,臨床データセットにおける特徴と不完全データの一部を重複させることによって生じる課題に対処することを目的とする。
ランダムフォレストのようなほとんどの標準的なアルゴリズムでは、全てのデータセットが同じパラメータを持つことが不可欠である。
フェデレーションされたグローバルに最適化されたモデルを集約するためには、各サイトでローカルに利用可能な機能のみを使用することができる。
論文 参考訳(メタデータ) (2024-05-31T10:07:24Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Geometry- and Accuracy-Preserving Random Forest Proximities [3.265773263570237]
我々はランダムフォレスト-ジオメトリー(Random Forest-Geometry- and Accuracy-Preserving Proximities:RF-GAP)と呼ばれるランダムフォレスト確率の新しい定義を導入する。
RF-GAPは乱林予測と正確に一致していることが証明された。
この幾何表現の改善は、データ計算などのタスクにおいて従来のランダムな森の確率よりも優れており、学習したデータ幾何と整合した外れ値の検出と可視化結果を提供する。
論文 参考訳(メタデータ) (2022-01-29T23:13:53Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Tell Me Something I Don't Know: Randomization Strategies for Iterative
Data Mining [0.6100370338020054]
我々は、以前に発見されたパターンやモデルを考慮に入れられるように、データのランダム化の問題を考える。
本稿では,以前に発見されたパターンやモデルを考慮に入れたデータランダム化の問題について考察する。
論文 参考訳(メタデータ) (2020-06-16T19:20:50Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。