論文の概要: Hippasus: Effective and Efficient Automatic Feature Augmentation for Machine Learning Tasks on Relational Data
- arxiv url: http://arxiv.org/abs/2602.02025v1
- Date: Mon, 02 Feb 2026 12:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.139002
- Title: Hippasus: Effective and Efficient Automatic Feature Augmentation for Machine Learning Tasks on Relational Data
- Title(参考訳): Hippasus:リレーショナルデータに基づく機械学習タスクの効率的かつ効率的な自動機能拡張
- Authors: Serafeim Papadias, Kostas Patroumpas, Dimitrios Skoutas,
- Abstract要約: 基本テーブルと候補テーブルを接続する有望なジョインパスを特定し、これらのジョインを実行して、拡張データを実体化し、その結果から最も有意義な機能を選択する。
Hippasusという,3つの重要なコントリビューションを通じて両方の目標を達成するモジュール型フレームワークを紹介します。
公開データセットに対する実験結果から,Hippasusは最先端のベースラインに対して,機能拡張の精度を最大26.8%向上することが示された。
- 参考スコア(独自算出の注目度): 3.0714301039424776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models depend critically on feature quality, yet useful features are often scattered across multiple relational tables. Feature augmentation enriches a base table by discovering and integrating features from related tables through join operations. However, scaling this process to complex schemas with many tables and multi-hop paths remains challenging. Feature augmentation must address three core tasks: identify promising join paths that connect the base table to candidate tables, execute these joins to materialize augmented data, and select the most informative features from the results. Existing approaches face a fundamental tradeoff between effectiveness and efficiency: achieving high accuracy requires exploring many candidate paths, but exhaustive exploration is computationally prohibitive. Some methods compromise by considering only immediate neighbors, limiting their effectiveness, while others employ neural models that require expensive training data and introduce scalability limitations. We present Hippasus, a modular framework that achieves both goals through three key contributions. First, we combine lightweight statistical signals with semantic reasoning from Large Language Models to prune unpromising join paths before execution, focusing computational resources on high-quality candidates. Second, we employ optimized multi-way join algorithms and consolidate features from multiple paths, substantially reducing execution time. Third, we integrate LLM-based semantic understanding with statistical measures to select features that are both semantically meaningful and empirically predictive. Our experimental evaluation on publicly available datasets shows that Hippasus substantially improves feature augmentation accuracy by up to 26.8% over state-of-the-art baselines while also offering high runtime performance.
- Abstract(参考訳): 機械学習モデルは機能品質に大きく依存するが、有用な機能は複数のリレーショナルテーブルに分散することが多い。
機能拡張は、ジョイン操作を通じて関連するテーブルからの機能を発見し、統合することによって、ベーステーブルを豊かにする。
しかし、このプロセスを多くのテーブルとマルチホップパスを持つ複雑なスキーマに拡張することは依然として困難である。
基本テーブルと候補テーブルを接続する有望なジョインパスを特定し、これらのジョインを実行して、拡張データを実体化し、その結果から最も有意義な機能を選択する。
既存のアプローチは、有効性と効率の根本的なトレードオフに直面している: 高い精度を達成するには、多くの候補経路を探索する必要があるが、徹底的な探索は計算的に禁止されている。
一部のメソッドは、すぐ隣のみを考慮し、有効性を制限し、一方、高価なトレーニングデータを必要とし、スケーラビリティの制限を導入するニューラルモデルを採用することで妥協する。
Hippasusという,3つの重要なコントリビューションを通じて両方の目標を達成するモジュール型フレームワークを紹介します。
まず、軽量な統計信号とLarge Language Modelsのセマンティック推論を組み合わせることで、実行前に計算資源を高品質な候補に焦点を合わせ、未証明のジョインパスを創出する。
第二に、最適化されたマルチウェイ結合アルゴリズムを採用し、複数の経路から機能を統合し、実行時間を著しく短縮する。
第3に,LLMに基づく意味理解を統計的尺度と統合し,意味論的かつ経験論的に予測可能な特徴を選択する。
公開データセットに関する実験的な評価によると、Hippasusは、最先端のベースラインよりも機能拡張の精度を最大26.8%向上し、実行時のパフォーマンスも向上している。
関連論文リスト
- TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - FeatNavigator: Automatic Feature Augmentation on Tabular Data [29.913561808461612]
FeatNavigatorは、機械学習(ML)モデルのためのリレーショナルテーブルで高品質な機能を探求し、統合するフレームワークである。
FeatNavigatorは、MLモデルのパフォーマンスが最大40.1%向上する5つのパブリックデータセットにおいて、最先端のソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-13T18:44:48Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。