論文の概要: Field-wise Learning for Multi-field Categorical Data
- arxiv url: http://arxiv.org/abs/2012.00202v1
- Date: Tue, 1 Dec 2020 01:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:40:26.686604
- Title: Field-wise Learning for Multi-field Categorical Data
- Title(参考訳): マルチフィールド分類データのためのフィールドワイズ学習
- Authors: Zhibin Li, Jian Zhang, Yongshun Gong, Yazhou Yao, Qiang Wu
- Abstract要約: マルチフィールド分類データを用いた新しい学習法を提案する。
これにより、モデルが各カテゴリに適合し、基礎となるデータの違いをよりよく捉えることができる。
2つの大規模データセットに対する実験結果から,本モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 27.100048708707593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new method for learning with multi-field categorical data.
Multi-field categorical data are usually collected over many heterogeneous
groups. These groups can reflect in the categories under a field. The existing
methods try to learn a universal model that fits all data, which is challenging
and inevitably results in learning a complex model. In contrast, we propose a
field-wise learning method leveraging the natural structure of data to learn
simple yet efficient one-to-one field-focused models with appropriate
constraints. In doing this, the models can be fitted to each category and thus
can better capture the underlying differences in data. We present a model that
utilizes linear models with variance and low-rank constraints, to help it
generalize better and reduce the number of parameters. The model is also
interpretable in a field-wise manner. As the dimensionality of multi-field
categorical data can be very high, the models applied to such data are mostly
over-parameterized. Our theoretical analysis can potentially explain the effect
of over-parametrization on the generalization of our model. It also supports
the variance constraints in the learning objective. The experiment results on
two large-scale datasets show the superior performance of our model, the trend
of the generalization error bound, and the interpretability of learning
outcomes. Our code is available at
https://github.com/lzb5600/Field-wise-Learning.
- Abstract(参考訳): マルチフィールド分類データを用いた新しい学習法を提案する。
マルチフィールド分類データは、通常、多くの異種群で収集される。
これらの群は、フィールドの下のカテゴリで反映することができる。
既存の手法は、すべてのデータに適合する普遍的なモデルを学習しようとするが、それは困難であり、必然的に複雑なモデルを学習する。
対照的に、データの自然な構造を利用したフィールドワイズ学習手法を提案し、適切な制約を伴って、シンプルで効率的なワンツーワンのフィールド中心モデルを学ぶ。
これにより、モデルが各カテゴリに適合し、基礎となるデータの違いをよりよく捉えることができる。
本稿では,分散と低ランク制約を持つ線形モデルを用いて,より一般化しパラメータ数を減らすためのモデルを提案する。
モデルはまた、フィールド的な方法で解釈可能である。
マルチフィールド分類データの次元性は非常に高いため、そのようなデータに適用されたモデルは概ね過パラメータ化される。
我々の理論解析は、過度パラメトリゼーションがモデルの一般化に与える影響を説明できる可能性がある。
また、学習目標における分散制約もサポートする。
実験結果は,2つの大規模データセットにおいて,モデルの優れた性能,一般化誤差の傾向,学習結果の解釈可能性を示した。
私たちのコードはhttps://github.com/lzb5600/field-wise-learningで利用可能です。
関連論文リスト
- TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models [10.88959673845634]
TabEBMはEnergy-Based Models (EBMs)を用いたクラス条件生成法である
実験の結果,TabEBMは既存の手法よりも高品質で統計的忠実度の高い合成データを生成することがわかった。
論文 参考訳(メタデータ) (2024-09-24T14:25:59Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Understanding Text Classification Data and Models Using Aggregated Input
Salience [2.105564340986074]
場合によっては、入力の最も重要な部分を強調する入力サリエンス法が問題となる可能性がある。
本稿では,これらの課題に対処し,単一例の理解からデータセットやモデル全体の理解へと進むことを目的とする。
この方法論を用いることで、複数の異なるが一般的なモデル開発者のニーズに対処し、問題のあるデータとモデルの振る舞いをいかに特定できるかを示す。
論文 参考訳(メタデータ) (2022-11-10T11:00:57Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Practical Active Learning with Model Selection for Small Data [13.128648437690224]
モデル選択を用いた実践的能動的学習のための簡易かつ高速な手法を開発した。
本手法は,ラジアル基底関数カーネルを用いたサポートベクトル分類を用いて,二元分類のためのプールベースアクティブラーナに基づく。
論文 参考訳(メタデータ) (2021-12-21T23:11:27Z) - On-Policy Model Errors in Reinforcement Learning [9.507323314334572]
本研究では,実世界のデータと学習モデルを組み合わせた新しい手法を提案する。
中心となる考え方は、実世界のデータを政治上の予測に利用し、学習したモデルを使用して、異なるアクションに一般化することである。
提案手法は,追加のチューニングパラメータを導入することなく,既存のモデルベースアプローチを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-15T10:15:53Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。