論文の概要: A graph-structured distance for heterogeneous datasets with meta variables
- arxiv url: http://arxiv.org/abs/2405.13073v1
- Date: Mon, 20 May 2024 23:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-25 04:22:11.886714
- Title: A graph-structured distance for heterogeneous datasets with meta variables
- Title(参考訳): メタ変数を持つ異種データセットのグラフ構造距離
- Authors: Edward Hallé-Hannan, Charles Audet, Youssef Diouane, Sébastien Le Digabel, Paul Saves,
- Abstract要約: 不均一データセットは、さまざまな機械学習や最適化アプリケーションに現れる。
最初の主な貢献は、最先端の階層的、木構造的、変数サイズのフレームワークを一般化するグラフ構造化フレームワークのモデリングである。
2つ目の寄与はグラフ構造距離であり、拡張点と含められた変数と除外された変数の組み合わせを比較する。
- 参考スコア(独自算出の注目度): 1.677718351174347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous datasets emerge in various machine learning or optimization applications that feature different data sources, various data types and complex relationships between variables. In practice, heterogeneous datasets are often partitioned into smaller well-behaved ones that are easier to process. However, some applications involve expensive-to-generate or limited size datasets, which motivates methods based on the whole dataset. The first main contribution of this work is a modeling graph-structured framework that generalizes state-of-the-art hierarchical, tree-structured, or variable-size frameworks. This framework models domains that involve heterogeneous datasets in which variables may be continuous, integer, or categorical, with some identified as meta if their values determine the inclusion/exclusion or affect the bounds of other so-called decreed variables. Excluded variables are introduced to manage variables that are either included or excluded depending on the given points. The second main contribution is the graph-structured distance that compares extended points with any combination of included and excluded variables: any pair of points can be compared, allowing to work directly in heterogeneous datasets with meta variables. The contributions are illustrated with some regression experiments, in which the performance of a multilayer perceptron with respect to its hyperparameters is modeled with inverse distance weighting and $K$-nearest neighbors models.
- Abstract(参考訳): 不均一データセットは、さまざまなデータソース、さまざまなデータタイプ、変数間の複雑な関係を特徴とする、さまざまな機械学習や最適化アプリケーションに現れる。
実際には、ヘテロジニアスデータセットは、処理が容易なより小さな、よく理解されたデータセットに分割されることが多い。
しかしながら、一部のアプリケーションは、高コストで生成または制限されたサイズデータセットを含んでおり、データセット全体に基づいたメソッドを動機付けている。
この研究の最初の貢献は、最先端の階層的、木構造的、変数サイズのフレームワークを一般化するグラフ構造化フレームワークのモデリングである。
このフレームワークは、変数が連続的、整数的、またはカテゴリー的であるような異種データセットを含むドメインをモデル化する。
除外された変数は、与えられたポイントに応じて含まれるか除外される変数を管理するために導入された。
2つ目の主な貢献はグラフ構造距離であり、拡張点と含められた変数と除外された変数の組み合わせを比較する:任意の一対の点を比較することができ、メタ変数を持つ異種データセットで直接動作することができる。
コントリビューションはいくつかの回帰実験で説明され、ハイパーパラメーターに対する多層パーセプトロンの性能は逆距離重み付けと$K$-nearest neighborsモデルでモデル化される。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference [0.2209921757303168]
社会科学の研究は、しばしば分類変数と結果の関係に頼っている。
本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。
論文 参考訳(メタデータ) (2024-04-07T14:47:07Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Latent Variable Multi-output Gaussian Processes for Hierarchical
Datasets [0.8057006406834466]
多出力ガウス過程(MOGP)は、異なる出力間の相関を利用して複数のタスクに対処するために導入された。
本稿では,階層型データセットのためのMOGPの拡張を提案する。
論文 参考訳(メタデータ) (2023-08-31T15:52:35Z) - iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive
Noise Models [48.33685559041322]
本稿では,同一変数集合上の2つ以上の関連するデータセットにおける因果メカニズムシフトの同定に焦点をあてる。
提案手法を実装したコードはオープンソースであり、https://github.com/kevinsbello/iSCAN.comで公開されている。
論文 参考訳(メタデータ) (2023-06-30T01:48:11Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - High-Dimensional Undirected Graphical Models for Arbitrary Mixed Data [2.2871867623460207]
多くのアプリケーションでは、データは異なるタイプの変数にまたがる。
最近の進歩は、バイナリ連続ケースにどのように取り組めるかを示しているが、一般的な混合変数型構造は依然として困難である。
完全混合型の変数を持つデータに対して,フレキシブルでスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:21:31Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Inference of Multiscale Gaussian Graphical Model [0.0]
階層的なクラスタリング構造と階層のそれぞれのレベルでの独立性構造を記述するグラフを同時に推論する新しい手法を提案する。
実データと合成データの結果が提示される。
論文 参考訳(メタデータ) (2022-02-11T17:11:20Z) - Hierarchical Variational Memory for Few-shot Learning Across Domains [120.87679627651153]
本稿では,プロトタイプの各レベルが階層メモリから対応する情報を取得する階層型プロトタイプモデルを提案する。
このモデルには、ドメインシフトの状況が要求される場合、異なるセマンティックレベルの機能を柔軟に依存する能力が備わっている。
モデルにおける各コンポーネントの有効性を示すために、徹底的なアブレーション研究を行っている。
論文 参考訳(メタデータ) (2021-12-15T15:01:29Z) - Linear Discriminant Analysis with High-dimensional Mixed Variables [10.774094462083843]
本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
論文 参考訳(メタデータ) (2021-12-14T03:57:56Z) - For high-dimensional hierarchical models, consider exchangeability of
effects across covariates instead of across datasets [18.74167116981788]
共変量数がデータセット数を超えると,標準慣行は統計性能が劣ることを示す。
統計遺伝学では、最大数百万の遺伝的変異に対して、何千もの個人(責任)に対して数十の形質(データセットを定義する)を抑圧するかもしれません。
代替的な視点を表現した階層モデルを提案する。
論文 参考訳(メタデータ) (2021-07-13T23:23:06Z) - Multi-Modal Prototype Learning for Interpretable Multivariable Time
Series Classification [0.0]
多変量時系列分類問題は、有病率と複雑性が増大している。
ディープラーニング手法はこれらの問題に有効なツールであるが、解釈可能性に欠けることが多い。
多変数時系列分類のための新しいモジュール型プロトタイプ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-17T16:32:47Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。