論文の概要: FeatNavigator: Automatic Feature Augmentation on Tabular Data
- arxiv url: http://arxiv.org/abs/2406.09534v1
- Date: Thu, 13 Jun 2024 18:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:24:36.190881
- Title: FeatNavigator: Automatic Feature Augmentation on Tabular Data
- Title(参考訳): FeatNavigator: タブラルデータの自動機能拡張
- Authors: Jiaming Liang, Chuan Lei, Xiao Qin, Jiani Zhang, Asterios Katsifodimos, Christos Faloutsos, Huzefa Rangwala,
- Abstract要約: FeatNavigatorは、機械学習(ML)モデルのためのリレーショナルテーブルで高品質な機能を探求し、統合するフレームワークである。
FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセットにおいて、最先端のソリューションよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 29.913561808461612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-centric AI focuses on understanding and utilizing high-quality, relevant data in training machine learning (ML) models, thereby increasing the likelihood of producing accurate and useful results. Automatic feature augmentation, aiming to augment the initial base table with useful features from other tables, is critical in data preparation as it improves model performance, robustness, and generalizability. While recent works have investigated automatic feature augmentation, most of them have limited capabilities in utilizing all useful features as many of them are in candidate tables not directly joinable with the base table. Worse yet, with numerous join paths leading to these distant features, existing solutions fail to fully exploit them within a reasonable compute budget. We present FeatNavigator, an effective and efficient framework that explores and integrates high-quality features in relational tables for ML models. FeatNavigator evaluates a feature from two aspects: (1) the intrinsic value of a feature towards an ML task (i.e., feature importance) and (2) the efficacy of a join path connecting the feature to the base table (i.e., integration quality). FeatNavigator strategically selects a small set of available features and their corresponding join paths to train a feature importance estimation model and an integration quality prediction model. Furthermore, FeatNavigator's search algorithm exploits both estimated feature importance and integration quality to identify the optimized feature augmentation plan. Our experimental results show that FeatNavigator outperforms state-of-the-art solutions on five public datasets by up to 40.1% in ML model performance.
- Abstract(参考訳): データ中心AIは、機械学習(ML)モデルのトレーニングにおいて、高品質で関連性の高いデータを理解し、活用することに焦点を当て、それによって正確で有用な結果を生み出す可能性を高める。
自動機能拡張は、初期ベーステーブルを他のテーブルから有用な機能で拡張することを目的としており、モデルの性能、堅牢性、一般化性を改善するため、データ準備において重要である。
最近の研究で自動的な機能拡張が検討されているが、そのほとんどは、基本テーブルと直接結合できない候補テーブルにあるため、すべての有用な機能を利用する能力に制限がある。
さらに悪いことに、これらの遠い特徴に導かれる多くの結合パスがあるため、既存のソリューションは妥当な計算予算の範囲内でそれらを十分に活用することができない。
FeatNavigatorは,MLモデルのリレーショナルテーブルにおいて,高品質な機能を探索し,統合する,効率的かつ効率的なフレームワークである。
FeatNavigatorは、(1)MLタスクに対する機能の本質的な価値(機能の重要性)と(2)その機能をベーステーブルに接続する結合パスの有効性(統合品質)の2つの側面から特徴を評価する。
FeatNavigatorは、機能重要度推定モデルと統合品質予測モデルをトレーニングするために、利用可能な少数の機能セットとその対応する結合パスを戦略的に選択する。
さらに、FeatNavigatorの検索アルゴリズムは、推定機能重要度と統合品質の両方を利用して、最適化された機能拡張計画を特定する。
FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセット上で、最先端のソリューションよりも優れています。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - OutRank: Speeding up AutoML-based Model Search for Large Sparse Data
sets with Cardinality-aware Feature Ranking [0.0]
特徴量ランキングとデータ品質関連異常検出のためのシステムであるOutRankを紹介する。
提案したアプローチでは,AutoMLのみのアプローチに比べて最大300%大きな機能空間の探索が可能になる。
論文 参考訳(メタデータ) (2023-09-04T12:07:20Z) - FeatGeNN: Improving Model Performance for Tabular Data with
Correlation-based Feature Extraction [0.22792085593908193]
FeatGeNNは、プール機能として相関を使って新機能を抽出し、生成する畳み込み方式である。
提案手法を様々なベンチマークデータセット上で評価し,FeatGeNNがモデル性能に関する既存のAutoFEアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-08-15T01:48:11Z) - Unified Embedding: Battle-Tested Feature Representations for Web-Scale
ML Systems [29.53535556926066]
高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。
この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。
機能構成の簡略化,動的データ分散への適応性の向上,最新のハードウェアとの互換性の3つの大きなメリットを生かした,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-20T05:35:40Z) - Traceable Automatic Feature Transformation via Cascading Actor-Critic
Agents [25.139229855367088]
特徴変換は機械学習(ML)の有効性と解釈可能性を高めるための必須課題である
特徴変換タスクを、特徴生成と選択の反復的、ネストされたプロセスとして定式化する。
高次元データにおけるSOTAとロバスト性と比較すると,F1スコアの24.7%の改善が見られた。
論文 参考訳(メタデータ) (2022-12-27T08:20:19Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z) - ARDA: Automatic Relational Data Augmentation for Machine Learning [23.570173866941612]
本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
論文 参考訳(メタデータ) (2020-03-21T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。