論文の概要: Synthetic Data for Feature Selection
- arxiv url: http://arxiv.org/abs/2211.03035v1
- Date: Sun, 6 Nov 2022 05:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:55:23.897770
- Title: Synthetic Data for Feature Selection
- Title(参考訳): 特徴選択のための合成データ
- Authors: Firuz Kamalov, Hana Sulieman, Aswani Kumar Cherukuri
- Abstract要約: 本稿では,特徴選択アルゴリズムの共通参照点として使用できる合成データセットの集合を提案する。
提案したデータセットは、現実のシナリオを模倣するために、エレクトロニクスからの応用に基づいている。
データセットはGitHubで公開されており、研究者が機能選択アルゴリズムを評価するために使用することができる。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection is an important and active field of research in machine
learning and data science. Our goal in this paper is to propose a collection of
synthetic datasets that can be used as a common reference point for feature
selection algorithms. Synthetic datasets allow for precise evaluation of
selected features and control of the data parameters for comprehensive
assessment. The proposed datasets are based on applications from electronics in
order to mimic real life scenarios. To illustrate the utility of the proposed
data we employ one of the datasets to test several popular feature selection
algorithms. The datasets are made publicly available on GitHub and can be used
by researchers to evaluate feature selection algorithms.
- Abstract(参考訳): 特徴選択は、機械学習とデータサイエンスにおける重要かつ活発な研究分野である。
本研究の目的は,特徴選択アルゴリズムの共通参照点として使用できる合成データセットの集合を提案することである。
合成データセットは、選択された特徴の正確な評価と総合的な評価のためのデータパラメータの制御を可能にする。
提案されたデータセットは、現実のシナリオを模倣するために電子工学の応用に基づいている。
提案したデータの有用性を説明するために、いくつかの人気のある特徴選択アルゴリズムをテストするためにデータセットの1つを使用します。
データセットはgithubで公開されており、研究者が機能選択アルゴリズムを評価するために使用することができる。
関連論文リスト
- Generating Diverse Synthetic Datasets for Evaluation of Real-life Recommender Systems [0.0]
合成データセットは、機械学習モデルの評価とテストに重要である。
我々は,多様かつ統計的に一貫性のある合成データセットを生成するための新しいフレームワークを開発する。
このフレームワークは、最小限の摩擦で研究を容易にする無料のオープンPythonパッケージとして利用できる。
論文 参考訳(メタデータ) (2024-11-27T09:53:14Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - Data Generation via Latent Factor Simulation for Fairness-aware Re-ranking [11.133319460036082]
合成データはアルゴリズム研究に有用な資源である。
フェアネスを意識したリコメンデーションのための新しいタイプのデータ: 合成レコメンデーションシステム出力を提案する。
論文 参考訳(メタデータ) (2024-09-21T09:13:50Z) - Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset
Evaluation for Text Classification [39.01740345482624]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。
9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文 参考訳(メタデータ) (2022-05-04T15:33:00Z) - On Feature Selection Using Anisotropic General Regression Neural Network [3.880707330499936]
入力データセットに無関係な特徴が存在することは、機械学習モデルの解釈可能性と予測品質を低下させる傾向がある。
本稿では, 一般回帰ニューラルネットワークと異方性ガウスカーネルを併用して特徴選択を行う方法を示す。
論文 参考訳(メタデータ) (2020-10-12T14:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。