論文の概要: A graph-structured distance for heterogeneous datasets with meta variables
- arxiv url: http://arxiv.org/abs/2405.13073v1
- Date: Mon, 20 May 2024 23:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:22:11.886714
- Title: A graph-structured distance for heterogeneous datasets with meta variables
- Title(参考訳): メタ変数を持つ異種データセットのグラフ構造距離
- Authors: Edward Hallé-Hannan, Charles Audet, Youssef Diouane, Sébastien Le Digabel, Paul Saves,
- Abstract要約: 不均一データセットは、さまざまな機械学習や最適化アプリケーションに現れる。
最初の主な貢献は、最先端の階層的、木構造的、変数サイズのフレームワークを一般化するグラフ構造化フレームワークのモデリングである。
2つ目の寄与はグラフ構造距離であり、拡張点と含められた変数と除外された変数の組み合わせを比較する。
- 参考スコア(独自算出の注目度): 1.677718351174347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous datasets emerge in various machine learning or optimization applications that feature different data sources, various data types and complex relationships between variables. In practice, heterogeneous datasets are often partitioned into smaller well-behaved ones that are easier to process. However, some applications involve expensive-to-generate or limited size datasets, which motivates methods based on the whole dataset. The first main contribution of this work is a modeling graph-structured framework that generalizes state-of-the-art hierarchical, tree-structured, or variable-size frameworks. This framework models domains that involve heterogeneous datasets in which variables may be continuous, integer, or categorical, with some identified as meta if their values determine the inclusion/exclusion or affect the bounds of other so-called decreed variables. Excluded variables are introduced to manage variables that are either included or excluded depending on the given points. The second main contribution is the graph-structured distance that compares extended points with any combination of included and excluded variables: any pair of points can be compared, allowing to work directly in heterogeneous datasets with meta variables. The contributions are illustrated with some regression experiments, in which the performance of a multilayer perceptron with respect to its hyperparameters is modeled with inverse distance weighting and $K$-nearest neighbors models.
- Abstract(参考訳): 不均一データセットは、さまざまなデータソース、さまざまなデータタイプ、変数間の複雑な関係を特徴とする、さまざまな機械学習や最適化アプリケーションに現れる。
実際には、ヘテロジニアスデータセットは、処理が容易なより小さな、よく理解されたデータセットに分割されることが多い。
しかしながら、一部のアプリケーションは、高コストで生成または制限されたサイズデータセットを含んでおり、データセット全体に基づいたメソッドを動機付けている。
この研究の最初の貢献は、最先端の階層的、木構造的、変数サイズのフレームワークを一般化するグラフ構造化フレームワークのモデリングである。
このフレームワークは、変数が連続的、整数的、またはカテゴリー的であるような異種データセットを含むドメインをモデル化する。
除外された変数は、与えられたポイントに応じて含まれるか除外される変数を管理するために導入された。
2つ目の主な貢献はグラフ構造距離であり、拡張点と含められた変数と除外された変数の組み合わせを比較する:任意の一対の点を比較することができ、メタ変数を持つ異種データセットで直接動作することができる。
コントリビューションはいくつかの回帰実験で説明され、ハイパーパラメーターに対する多層パーセプトロンの性能は逆距離重み付けと$K$-nearest neighborsモデルでモデル化される。
関連論文リスト
- Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Latent Variable Multi-output Gaussian Processes for Hierarchical
Datasets [0.8057006406834466]
多出力ガウス過程(MOGP)は、異なる出力間の相関を利用して複数のタスクに対処するために導入された。
本稿では,階層型データセットのためのMOGPの拡張を提案する。
論文 参考訳(メタデータ) (2023-08-31T15:52:35Z) - iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive
Noise Models [48.33685559041322]
本稿では,同一変数集合上の2つ以上の関連するデータセットにおける因果メカニズムシフトの同定に焦点をあてる。
提案手法を実装したコードはオープンソースであり、https://github.com/kevinsbello/iSCAN.comで公開されている。
論文 参考訳(メタデータ) (2023-06-30T01:48:11Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - High-Dimensional Undirected Graphical Models for Arbitrary Mixed Data [2.2871867623460207]
多くのアプリケーションでは、データは異なるタイプの変数にまたがる。
最近の進歩は、バイナリ連続ケースにどのように取り組めるかを示しているが、一般的な混合変数型構造は依然として困難である。
完全混合型の変数を持つデータに対して,フレキシブルでスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:21:31Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Inference of Multiscale Gaussian Graphical Model [0.0]
階層的なクラスタリング構造と階層のそれぞれのレベルでの独立性構造を記述するグラフを同時に推論する新しい手法を提案する。
実データと合成データの結果が提示される。
論文 参考訳(メタデータ) (2022-02-11T17:11:20Z) - Linear Discriminant Analysis with High-dimensional Mixed Variables [10.774094462083843]
本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
論文 参考訳(メタデータ) (2021-12-14T03:57:56Z) - Multi-Modal Prototype Learning for Interpretable Multivariable Time
Series Classification [0.0]
多変量時系列分類問題は、有病率と複雑性が増大している。
ディープラーニング手法はこれらの問題に有効なツールであるが、解釈可能性に欠けることが多い。
多変数時系列分類のための新しいモジュール型プロトタイプ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-17T16:32:47Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。