論文の概要: DIWIFT: Discovering Instance-wise Influential Features for Tabular Data
- arxiv url: http://arxiv.org/abs/2207.02773v1
- Date: Wed, 6 Jul 2022 16:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 14:24:41.511294
- Title: DIWIFT: Discovering Instance-wise Influential Features for Tabular Data
- Title(参考訳): DIWIFT: 語彙データのためのインスタンスワイズな特徴を発見する
- Authors: Pengxiang Cheng, Hong Zhu, Xing Tang, Dugang Liu, Yanyu Chen, Xiaoting
Wang, Weike Pan, Zhong Ming, Xiuqiang He
- Abstract要約: タブラルデータ(Tabular data)は、小売、銀行、Eコマースなど、ビジネスアプリケーションにおいて最も一般的なデータストレージフォーマットの1つである。
表表データの学習における重要な問題の1つは、影響のある特徴と所定の特徴とを区別することである。
表型データ(DIWIFT)のインスタンス単位に影響を及ぼす特徴を発見するための新しい手法を提案する。
本手法は,検証セットの検証損失を最小限に抑え,トレーニングデータセットやテストデータセットに存在する分散シフトに対してより堅牢である。
- 参考スコア(独自算出の注目度): 29.69737486124891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is one of the most common data storage formats in business
applications, ranging from retail, bank and E-commerce. These applications rely
heavily on machine learning models to achieve business success. One of the
critical problems in learning tabular data is to distinguish influential
features from all the predetermined features. Global feature selection has been
well-studied for quite some time, assuming that all instances have the same
influential feature subsets. However, different instances rely on different
feature subsets in practice, which also gives rise to that instance-wise
feature selection receiving increasing attention in recent studies. In this
paper, we first propose a novel method for discovering instance-wise
influential features for tabular data (DIWIFT), the core of which is to
introduce the influence function to measure the importance of an instance-wise
feature. DIWIFT is capable of automatically discovering influential feature
subsets of different sizes in different instances, which is different from
global feature selection that considers all instances with the same influential
feature subset. On the other hand, different from the previous instance-wise
feature selection, DIWIFT minimizes the validation loss on the validation set
and is thus more robust to the distribution shift existing in the training
dataset and test dataset, which is important in tabular data. Finally, we
conduct extensive experiments on both synthetic and real-world datasets to
validate the effectiveness of our DIWIFT, compared it with baseline methods.
Moreover, we also demonstrate the robustness of our method via some ablation
experiments.
- Abstract(参考訳): タブラルデータは、小売、銀行、Eコマースなど、ビジネスアプリケーションで最も一般的なデータストレージフォーマットの1つである。
これらのアプリケーションは、ビジネスの成功を達成するために機械学習モデルに大きく依存している。
表データ学習における重要な問題の1つは、影響のある機能をすべての所定の特徴から区別することである。
グローバルな機能選択は、すべてのインスタンスが同じ影響のある機能サブセットを持っていることを前提として、かなり長い間よく研究されてきた。
しかし、異なるインスタンスは実際には異なる機能サブセットに依存しているため、最近の研究で注目を浴びるケースワイドな機能選択がもたらされる。
本稿では、まず、表型データ(DIWIFT)のインスタンスに影響を及ぼす特徴を発見するための新しい手法を提案し、その中核となるのは、インスタンスに影響を及ぼす特徴の重要性を測定するための影響関数の導入である。
DIWIFTは、異なるインスタンスで異なるサイズの影響のある機能サブセットを自動的に発見することができる。
一方、従来のインスタンス単位の機能選択とは異なり、DIWIFTは検証セットの検証損失を最小限に抑え、トレーニングデータセットやテストデータセットに存在する分散シフトに対してより堅牢である。
最後に,DIWIFTの有効性をベースライン法と比較するため,合成データセットと実世界のデータセットの両方で広範な実験を行った。
さらに,いくつかのアブレーション実験により,本手法の堅牢性を示す。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - MvFS: Multi-view Feature Selection for Recommender System [7.0190343591422115]
本稿では,各インスタンスのより効率的な情報機能を選択するMulti-view Feature Selection (MvFS)を提案する。
MvFSは複数のサブネットワークで構成されるマルチビューネットワークを採用しており、それぞれがデータの一部の特徴的重要性を計測することを学ぶ。
MvFSは、各分野に独立して適用される効果的な重要スコアモデリング戦略を採用している。
論文 参考訳(メタデータ) (2023-09-05T09:06:34Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Beyond Importance Scores: Interpreting Tabular ML by Visualizing Feature
Semantics [17.410093908967976]
機械学習(ML)モデルが批判的な意思決定に広く利用されているため、解釈可能性(interpretability)は活発な研究トピックになりつつある。
表データに使われている既存の解釈可能性の手法の多くは、特徴重要点のみを報告している。
我々は,新しいグローバル解釈可能性法であるFeature Vectorsを導入することで,この制限に対処する。
論文 参考訳(メタデータ) (2021-11-10T19:42:33Z) - Active Learning by Acquiring Contrastive Examples [8.266097781813656]
本稿では,テキストコントラストの例,すなわちモデル特徴空間に類似したデータポイントを選択することを選択可能な取得関数を提案する。
提案手法を,4つの自然言語理解タスクと7つのデータセットにおける多種多様な獲得関数と比較した。
論文 参考訳(メタデータ) (2021-09-08T16:40:18Z) - A User-Guided Bayesian Framework for Ensemble Feature Selection in Life
Science Applications (UBayFS) [0.0]
本稿では,ベイズ統計フレームワークに組み込んだアンサンブル特徴選択手法UBayFSを提案する。
提案手法は,データとドメイン知識の2つの情報源を考慮し,特徴選択のプロセスを強化する。
標準的な機能セレクタとの比較では、UBayFSは競争力のあるパフォーマンスを実現し、ドメイン知識を組み込むための柔軟性を提供する。
論文 参考訳(メタデータ) (2021-04-30T06:51:33Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。