論文の概要: MFAI: A Scalable Bayesian Matrix Factorization Approach to Leveraging
Auxiliary Information
- arxiv url: http://arxiv.org/abs/2303.02566v1
- Date: Sun, 5 Mar 2023 03:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 18:50:55.053075
- Title: MFAI: A Scalable Bayesian Matrix Factorization Approach to Leveraging
Auxiliary Information
- Title(参考訳): MFAI:補助情報を活用するためのスケーラブルなベイズ行列分解手法
- Authors: Zhiwei Wang, Fa Zhang, Cong Zheng, Xianghong Hu, Mingxuan Cai, Can
Yang
- Abstract要約: 本稿では, 実アプリケーションで大規模に利用できる補助情報を活用することにより, 行列因数分解問題を考える。
補助情報と主データ行列を結合する単純な線形モデルに主に依存する既存の手法とは異なり、勾配強化木を統合することを提案する。
我々はシミュレーション研究と実データ解析の総合的な数値結果を通じて,MFAIの利点を実証する。
- 参考スコア(独自算出の注目度): 8.459778277577813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In various practical situations, matrix factorization methods suffer from
poor data quality, such as high data sparsity and low signal-to-noise ratio
(SNR). Here we consider a matrix factorization problem by utilizing auxiliary
information, which is massively available in real applications, to overcome the
challenges caused by poor data quality. Unlike existing methods that mainly
rely on simple linear models to combine auxiliary information with the main
data matrix, we propose to integrate gradient boosted trees in the
probabilistic matrix factorization framework to effectively leverage auxiliary
information (MFAI). Thus, MFAI naturally inherits several salient features of
gradient boosted trees, such as the capability of flexibly modeling nonlinear
relationships, and robustness to irrelevant features and missing values in
auxiliary information. The parameters in MAFI can be automatically determined
under the empirical Bayes framework, making it adaptive to the utilization of
auxiliary information and immune to overfitting. Moreover, MFAI is
computationally efficient and scalable to large-scale datasets by exploiting
variational inference. We demonstrate the advantages of MFAI through
comprehensive numerical results from simulation studies and real data analysis.
Our approach is implemented in the R package mfair available at
https://github.com/YangLabHKUST/mfair.
- Abstract(参考訳): 様々な状況において、行列分解法は、高データ間隔や低信号-雑音比(SNR)などのデータ品質の低下に悩まされている。
ここでは,データ品質の低下に起因する課題を克服するため,実アプリケーションで大規模に利用できる補助情報を利用した行列分解問題を考察する。
補助情報と主データ行列を結合する単純な線形モデルに主に依存する既存の手法とは異なり、確率行列分解フレームワークに勾配強化木を統合することで、補助情報(MFAI)を効果的に活用することを提案する。
このように、MFAIは、非線形関係を柔軟にモデル化する能力、無関係な特徴に対する堅牢性、補助情報における欠落値など、勾配強化木の有能な特徴を自然に継承する。
MAFIのパラメータは、経験的ベイズフレームワークの下で自動的に決定され、補助情報の利用と過剰適合に対する免疫に適応する。
さらに、MFAIは変分推論を利用して計算効率が高く、大規模データセットに対してスケーラブルである。
我々はシミュレーション研究と実データ解析の総合的な数値結果を通じて,MFAIの利点を実証する。
我々のアプローチは、https://github.com/YangLabHKUST/mfairで利用可能なRパッケージmfairで実装されています。
関連論文リスト
- LaFA: Latent Feature Attacks on Non-negative Matrix Factorization [3.45173496229657]
ラテント・フィーチャー・アタック(LaFA)と呼ばれるNMFにおける新しい攻撃のクラスを紹介する。
提案手法では,潜時特徴に直接特徴誤差(FE)損失を利用する。
FE攻撃におけるバックプロパゲーションからの大きなピークメモリオーバーヘッド勾配に対処するため,暗黙の微分に基づく手法を開発した。
論文 参考訳(メタデータ) (2024-08-07T17:13:46Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。
MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。
理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文 参考訳(メタデータ) (2023-08-26T06:12:33Z) - Quadratic Matrix Factorization with Applications to Manifold Learning [1.6795461001108094]
本稿では,データセットの配置する曲線多様体を学習するための2次行列分解(QMF)フレームワークを提案する。
アルゴリズムでは,QMFを最適化し,その理論的収束特性を確立するための交代最小化アルゴリズムを提案する。
合成多様体学習データセットとMNIST手書きデータセットと低温電子顕微鏡データセットを含む2つの実データセットの実験は、提案手法が競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:09:00Z) - Non-Negative Matrix Factorization with Scale Data Structure Preservation [23.31865419578237]
本稿では,データ表現と次元縮小のために設計された非負行列分解法に属するモデルについて述べる。
この考え方は、NMFコスト関数に、元のデータポイントと変換されたデータポイントのペアの類似度行列のスケール関係を課すペナルティ項を追加することである。
提案したクラスタリングアルゴリズムは,既存のNMFベースのアルゴリズムや,実際のデータセットに適用した場合の多様体学習ベースのアルゴリズムと比較される。
論文 参考訳(メタデータ) (2022-09-22T09:32:18Z) - Unitary Approximate Message Passing for Matrix Factorization [90.84906091118084]
行列分解 (MF) を一定の制約で考慮し, 様々な分野の応用を見いだす。
我々は,効率の良いメッセージパッシング実装であるUAMPMFを用いて,MFに対するベイズ的アプローチを開発する。
UAMPMFは、回復精度、ロバスト性、計算複雑性の観点から、最先端のアルゴリズムを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-07-31T12:09:32Z) - Data Fusion with Latent Map Gaussian Processes [0.0]
多要素モデリングとキャリブレーションは、エンジニアリング設計においてユビキタスに発生するデータ融合タスクである。
本稿では,遅延マップガウス過程(LMGP)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T00:54:19Z) - Feature Weighted Non-negative Matrix Factorization [92.45013716097753]
本稿では,FNMF(Feature weighted Non- negative Matrix Factorization)を提案する。
FNMFはその重要性に応じて特徴の重みを適応的に学習する。
提案する最適化アルゴリズムを用いて効率的に解くことができる。
論文 参考訳(メタデータ) (2021-03-24T21:17:17Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。