論文の概要: Information-theoretic Feature Selection via Tensor Decomposition and
Submodularity
- arxiv url: http://arxiv.org/abs/2010.16181v1
- Date: Fri, 30 Oct 2020 10:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 16:19:25.547950
- Title: Information-theoretic Feature Selection via Tensor Decomposition and
Submodularity
- Title(参考訳): テンソル分解と部分モジュラリティによる情報理論的特徴選択
- Authors: Magda Amiridi, Nikos Kargas, Nicholas D. Sidiropoulos
- Abstract要約: 本稿では,全ての変数の結合PMFの低ランクテンソルモデルを導入し,複雑性を緩和し,与えられた特徴量の分類性能を最大化する手法として間接的ターゲットを提案する。
原目標変数の代わりにネイブベイズモデルの潜伏変数を間接的に予測することにより、濃度制約を受ける単調部分モジュラ函数として特徴選択問題を定式化することができる。
- 参考スコア(独自算出の注目度): 38.05393186002834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection by maximizing high-order mutual information between the
selected feature vector and a target variable is the gold standard in terms of
selecting the best subset of relevant features that maximizes the performance
of prediction models. However, such an approach typically requires knowledge of
the multivariate probability distribution of all features and the target, and
involves a challenging combinatorial optimization problem. Recent work has
shown that any joint Probability Mass Function (PMF) can be represented as a
naive Bayes model, via Canonical Polyadic (tensor rank) Decomposition. In this
paper, we introduce a low-rank tensor model of the joint PMF of all variables
and indirect targeting as a way of mitigating complexity and maximizing the
classification performance for a given number of features. Through low-rank
modeling of the joint PMF, it is possible to circumvent the curse of
dimensionality by learning principal components of the joint distribution. By
indirectly aiming to predict the latent variable of the naive Bayes model
instead of the original target variable, it is possible to formulate the
feature selection problem as maximization of a monotone submodular function
subject to a cardinality constraint - which can be tackled using a greedy
algorithm that comes with performance guarantees. Numerical experiments with
several standard datasets suggest that the proposed approach compares favorably
to the state-of-art for this important problem.
- Abstract(参考訳): 選択した特徴ベクトルと対象変数の高次相互情報を最大化する特徴選択は、予測モデルの性能を最大化する関連する特徴の最良のサブセットを選択するという点において、ゴールドスタンダードである。
しかし、そのようなアプローチは一般に、すべての特徴と対象の多変量確率分布の知識を必要とし、挑戦的な組合せ最適化問題を伴う。
近年の研究では、任意の関節確率質量関数 (PMF) がカノニカルポリアディクス(テンソルランク)分解を介して、ベイズモデルとして表現できることが示されている。
本稿では,すべての変数のジョイントpmfの低ランクテンソルモデルと間接的ターゲティングを,複雑性を緩和し,与えられた特徴量の分類性能を最大化する手法として導入する。
関節PMFの低ランクモデリングにより,関節分布の主成分を学習することにより,次元の呪いを回避することができる。
もともとの目標変数ではなく、ナイーブ・ベイズモデルの潜在変数を間接的に予測することを目的として、性能保証を伴う欲望アルゴリズムを用いて取り組むことができる濃度制約に従う単調部分モジュラー関数の最大化として特徴選択問題を定式化することができる。
いくつかの標準データセットを用いた数値実験により、提案されたアプローチは、この重要な問題に対して最先端と好適に比較できることが示唆された。
関連論文リスト
- Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - RUMBoost: Gradient Boosted Random Utility Models [0.0]
RUMBoostモデルは、ランダムユーティリティモデル(RUM)の解釈可能性と行動的堅牢性と、ディープラーニング手法の一般化と予測能力を組み合わせる。
本稿では,RUMBoostモデルとMLおよびRandom Utilityベンチマークモデルとの比較を行い,ロンドンの選好モード選択データについて検討した。
論文 参考訳(メタデータ) (2024-01-22T13:54:26Z) - Feature Selection via the Intervened Interpolative Decomposition and its
Application in Diversifying Quantitative Strategies [4.913248451323163]
本稿では,観測行列の各列がそれぞれの優先度や重要性を持つ補間分解(ID)を計算するための確率論的モデルを提案する。
提案したモデルを,中国A株10株を含む実世界のデータセット上で評価した。
論文 参考訳(メタデータ) (2022-09-29T03:36:56Z) - Top-$k$ Regularization for Supervised Feature Selection [11.927046591097623]
教師付き特徴選択のための新しい,シンプルで効果的な正規化手法である Top-k$ regularization を導入する。
上位$kの正規化は、教師付き特徴選択に有効で安定であることを示す。
論文 参考訳(メタデータ) (2021-06-04T01:12:47Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Gaussian Process Latent Class Choice Models [7.992550355579791]
離散選択モデル(DCM)における確率的機械学習の非パラメトリッククラスを提案する。
提案モデルでは,GPを用いた行動同質クラスタ(ラテントクラス)に確率的に個人を割り当てる。
モデルは2つの異なるモード選択アプリケーションでテストされ、異なるLCCMベンチマークと比較される。
論文 参考訳(メタデータ) (2021-01-28T19:56:42Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。