Fugu-MT 論文翻訳(概要): FeatNavigator: Automatic Feature Augmentation on Tabular Data

論文の概要: FeatNavigator: Automatic Feature Augmentation on Tabular Data

arxiv url: http://arxiv.org/abs/2406.09534v1
Date: Thu, 13 Jun 2024 18:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 17:24:36.190881
Title: FeatNavigator: Automatic Feature Augmentation on Tabular Data
Title（参考訳）: FeatNavigator: タブラルデータの自動機能拡張
Authors: Jiaming Liang, Chuan Lei, Xiao Qin, Jiani Zhang, Asterios Katsifodimos, Christos Faloutsos, Huzefa Rangwala,
Abstract要約: FeatNavigatorは、機械学習(ML)モデルのためのリレーショナルテーブルで高品質な機能を探求し、統合するフレームワークである。 FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセットにおいて、最先端のソリューションよりも優れていることを示す。
参考スコア（独自算出の注目度）: 29.913561808461612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data-centric AI focuses on understanding and utilizing high-quality, relevant data in training machine learning (ML) models, thereby increasing the likelihood of producing accurate and useful results. Automatic feature augmentation, aiming to augment the initial base table with useful features from other tables, is critical in data preparation as it improves model performance, robustness, and generalizability. While recent works have investigated automatic feature augmentation, most of them have limited capabilities in utilizing all useful features as many of them are in candidate tables not directly joinable with the base table. Worse yet, with numerous join paths leading to these distant features, existing solutions fail to fully exploit them within a reasonable compute budget. We present FeatNavigator, an effective and efficient framework that explores and integrates high-quality features in relational tables for ML models. FeatNavigator evaluates a feature from two aspects: (1) the intrinsic value of a feature towards an ML task (i.e., feature importance) and (2) the efficacy of a join path connecting the feature to the base table (i.e., integration quality). FeatNavigator strategically selects a small set of available features and their corresponding join paths to train a feature importance estimation model and an integration quality prediction model. Furthermore, FeatNavigator's search algorithm exploits both estimated feature importance and integration quality to identify the optimized feature augmentation plan. Our experimental results show that FeatNavigator outperforms state-of-the-art solutions on five public datasets by up to 40.1% in ML model performance.
Abstract（参考訳）: データ中心AIは、機械学習(ML)モデルのトレーニングにおいて、高品質で関連性の高いデータを理解し、活用することに焦点を当て、それによって正確で有用な結果を生み出す可能性を高める。自動機能拡張は、初期ベーステーブルを他のテーブルから有用な機能で拡張することを目的としており、モデルの性能、堅牢性、一般化性を改善するため、データ準備において重要である。最近の研究で自動的な機能拡張が検討されているが、そのほとんどは、基本テーブルと直接結合できない候補テーブルにあるため、すべての有用な機能を利用する能力に制限がある。さらに悪いことに、これらの遠い特徴に導かれる多くの結合パスがあるため、既存のソリューションは妥当な計算予算の範囲内でそれらを十分に活用することができない。 FeatNavigatorは,MLモデルのリレーショナルテーブルにおいて,高品質な機能を探索し,統合する,効率的かつ効率的なフレームワークである。 FeatNavigatorは、(1)MLタスクに対する機能の本質的な価値(機能の重要性)と(2)その機能をベーステーブルに接続する結合パスの有効性(統合品質)の2つの側面から特徴を評価する。 FeatNavigatorは、機能重要度推定モデルと統合品質予測モデルをトレーニングするために、利用可能な少数の機能セットとその対応する結合パスを戦略的に選択する。さらに、FeatNavigatorの検索アルゴリズムは、推定機能重要度と統合品質の両方を利用して、最適化された機能拡張計画を特定する。 FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセット上で、最先端のソリューションよりも優れています。

関連論文リスト

Hippasus: Effective and Efficient Automatic Feature Augmentation for Machine Learning Tasks on Relational Data [3.0714301039424776]
基本テーブルと候補テーブルを接続する有望なジョインパスを特定し、これらのジョインを実行して、拡張データを実体化し、その結果から最も有意義な機能を選択する。 Hippasusという,3つの重要なコントリビューションを通じて両方の目標を達成するモジュール型フレームワークを紹介します。公開データセットに対する実験結果から,Hippasusは最先端のベースラインに対して,機能拡張の精度を最大26.8%向上することが示された。
論文参考訳（メタデータ） (2026-02-02T12:21:24Z)
One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文参考訳（メタデータ） (2025-10-30T06:08:27Z)
PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。 PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文参考訳（メタデータ） (2025-07-11T08:18:52Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
AdaF^2M^2: Comprehensive Learning and Responsive Leveraging Features in Recommendation System [16.364341783911414]
本稿では,モデルに依存しないフレームワークであるAdaF2M2を提案する。 AdaF2M2でベースモデルを固定することにより、複数のレコメンデーションシナリオでオンラインA/Bテストを行い、ユーザアクティブ日とアプリ期間で+1.37%、+1.89%の累積的な改善を実現した。
論文参考訳（メタデータ） (2025-01-27T06:49:27Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
OutRank: Speeding up AutoML-based Model Search for Large Sparse Data sets with Cardinality-aware Feature Ranking [0.0]
特徴量ランキングとデータ品質関連異常検出のためのシステムであるOutRankを紹介する。提案したアプローチでは,AutoMLのみのアプローチに比べて最大300%大きな機能空間の探索が可能になる。
論文参考訳（メタデータ） (2023-09-04T12:07:20Z)
FeatGeNN: Improving Model Performance for Tabular Data with Correlation-based Feature Extraction [0.22792085593908193]
FeatGeNNは、プール機能として相関を使って新機能を抽出し、生成する畳み込み方式である。提案手法を様々なベンチマークデータセット上で評価し,FeatGeNNがモデル性能に関する既存のAutoFEアプローチより優れていることを示す。
論文参考訳（メタデータ） (2023-08-15T01:48:11Z)
Unified Embedding: Battle-Tested Feature Representations for Web-Scale ML Systems [29.53535556926066]
高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。機能構成の簡略化,動的データ分散への適応性の向上,最新のハードウェアとの互換性の3つの大きなメリットを生かした,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。
論文参考訳（メタデータ） (2023-05-20T05:35:40Z)
Traceable Automatic Feature Transformation via Cascading Actor-Critic Agents [25.139229855367088]
特徴変換は機械学習(ML)の有効性と解釈可能性を高めるための必須課題である特徴変換タスクを、特徴生成と選択の反復的、ネストされたプロセスとして定式化する。高次元データにおけるSOTAとロバスト性と比較すると,F1スコアの24.7%の改善が見られた。
論文参考訳（メタデータ） (2022-12-27T08:20:19Z)
Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文参考訳（メタデータ） (2021-10-09T09:02:45Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)
AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。 AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。 AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文参考訳（メタデータ） (2020-03-25T06:53:54Z)
ARDA: Automatic Relational Data Augmentation for Machine Learning [23.570173866941612]
本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
論文参考訳（メタデータ） (2020-03-21T21:55:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。