Fugu-MT 論文翻訳(概要): Synthetic Data for Feature Selection

論文の概要: Synthetic Data for Feature Selection

arxiv url: http://arxiv.org/abs/2211.03035v1
Date: Sun, 6 Nov 2022 05:57:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 17:55:23.897770
Title: Synthetic Data for Feature Selection
Title（参考訳）: 特徴選択のための合成データ
Authors: Firuz Kamalov, Hana Sulieman, Aswani Kumar Cherukuri
Abstract要約: 本稿では,特徴選択アルゴリズムの共通参照点として使用できる合成データセットの集合を提案する。提案したデータセットは、現実のシナリオを模倣するために、エレクトロニクスからの応用に基づいている。データセットはGitHubで公開されており、研究者が機能選択アルゴリズムを評価するために使用することができる。
参考スコア（独自算出の注目度）: 5.8010446129208155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Feature selection is an important and active field of research in machine learning and data science. Our goal in this paper is to propose a collection of synthetic datasets that can be used as a common reference point for feature selection algorithms. Synthetic datasets allow for precise evaluation of selected features and control of the data parameters for comprehensive assessment. The proposed datasets are based on applications from electronics in order to mimic real life scenarios. To illustrate the utility of the proposed data we employ one of the datasets to test several popular feature selection algorithms. The datasets are made publicly available on GitHub and can be used by researchers to evaluate feature selection algorithms.
Abstract（参考訳）: 特徴選択は、機械学習とデータサイエンスにおける重要かつ活発な研究分野である。本研究の目的は,特徴選択アルゴリズムの共通参照点として使用できる合成データセットの集合を提案することである。合成データセットは、選択された特徴の正確な評価と総合的な評価のためのデータパラメータの制御を可能にする。提案されたデータセットは、現実のシナリオを模倣するために電子工学の応用に基づいている。提案したデータの有用性を説明するために、いくつかの人気のある特徴選択アルゴリズムをテストするためにデータセットの1つを使用します。データセットはgithubで公開されており、研究者が機能選択アルゴリズムを評価するために使用することができる。

関連論文リスト

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-05-14T17:55:10Z)
Algorithm Performance Spaces for Strategic Dataset Selection [0.0]
推薦システムにおける新しいアルゴリズムの評価は、MovieLensやAmazonなどの公開データセットに依存することが多い。この論文では、アルゴリズムに適用されたアルゴリズムの計測パフォーマンスに基づいてデータセットを区別するように設計されたフレームワークである、アルゴリズムパフォーマンススペースを紹介している。
論文参考訳（メタデータ） (2025-04-29T12:29:52Z)
What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching? [57.49867420132091]
標準ベンチマークを用いてゼロショットステレオマッチング性能への影響を報告する。最適な設定を収集し、大規模なデータセットを作成することで、結果を検証する。我々は,プロシージャステレオデータセットのさらなる研究を可能にするために,我々のシステムをオープンソース化した。
論文参考訳（メタデータ） (2025-04-23T17:59:33Z)
Generating Diverse Synthetic Datasets for Evaluation of Real-life Recommender Systems [0.0]
合成データセットは、機械学習モデルの評価とテストに重要である。我々は,多様かつ統計的に一貫性のある合成データセットを生成するための新しいフレームワークを開発する。このフレームワークは、最小限の摩擦で研究を容易にする無料のオープンPythonパッケージとして利用できる。
論文参考訳（メタデータ） (2024-11-27T09:53:14Z)
Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文参考訳（メタデータ） (2024-10-05T17:11:37Z)
Data Generation via Latent Factor Simulation for Fairness-aware Re-ranking [11.133319460036082]
合成データはアルゴリズム研究に有用な資源である。フェアネスを意識したリコメンデーションのための新しいタイプのデータ: 合成レコメンデーションシステム出力を提案する。
論文参考訳（メタデータ） (2024-09-21T09:13:50Z)
Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文参考訳（メタデータ） (2024-09-03T17:12:21Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。既存の調査では、微調整フェーズの詳細な調査を見落としている。特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
A Performance-Driven Benchmark for Feature Selection in Tabular Deep Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文参考訳（メタデータ） (2023-11-10T05:26:10Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文参考訳（メタデータ） (2023-05-26T05:22:36Z)
Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification [39.01740345482624]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文参考訳（メタデータ） (2022-05-04T15:33:00Z)
On Feature Selection Using Anisotropic General Regression Neural Network [3.880707330499936]
入力データセットに無関係な特徴が存在することは、機械学習モデルの解釈可能性と予測品質を低下させる傾向がある。本稿では, 一般回帰ニューラルネットワークと異方性ガウスカーネルを併用して特徴選択を行う方法を示す。
論文参考訳（メタデータ） (2020-10-12T14:35:40Z)
On the Use of Interpretable Machine Learning for the Management of Data Quality [13.075880857448059]
我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
論文参考訳（メタデータ） (2020-07-29T08:49:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。