論文の概要: ARDA: Automatic Relational Data Augmentation for Machine Learning
- arxiv url: http://arxiv.org/abs/2003.09758v1
- Date: Sat, 21 Mar 2020 21:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 12:50:36.431943
- Title: ARDA: Automatic Relational Data Augmentation for Machine Learning
- Title(参考訳): ARDA: 機械学習のための自動リレーショナルデータ拡張
- Authors: Nadiia Chepurko, Ryan Marcus, Emanuel Zgraggen, Raul Castro Fernandez,
Tim Kraska, David Karger
- Abstract要約: 本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
- 参考スコア(独自算出の注目度): 23.570173866941612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic machine learning (\AML) is a family of techniques to automate the
process of training predictive models, aiming to both improve performance and
make machine learning more accessible. While many recent works have focused on
aspects of the machine learning pipeline like model selection, hyperparameter
tuning, and feature selection, relatively few works have focused on automatic
data augmentation. Automatic data augmentation involves finding new features
relevant to the user's predictive task with minimal ``human-in-the-loop''
involvement.
We present \system, an end-to-end system that takes as input a dataset and a
data repository, and outputs an augmented data set such that training a
predictive model on this augmented dataset results in improved performance. Our
system has two distinct components: (1) a framework to search and join data
with the input data, based on various attributes of the input, and (2) an
efficient feature selection algorithm that prunes out noisy or irrelevant
features from the resulting join. We perform an extensive empirical evaluation
of different system components and benchmark our feature selection algorithm on
real-world datasets.
- Abstract(参考訳): 自動機械学習(\AML)は、予測モデルをトレーニングするプロセスを自動化する一連の技術であり、パフォーマンスを改善し、機械学習をより使いやすくすることを目指している。
最近の多くの研究は、モデル選択、ハイパーパラメータチューニング、機能選択といった機械学習パイプラインの側面に焦点を当てているが、比較的少数の研究が自動データ拡張に焦点を当てている。
自動データ拡張は、最小限の ``human-in-the-loop''' でユーザの予測タスクに関連する新機能を見つけることを伴う。
本稿では,データセットとデータレポジトリを入力として入力するエンドツーエンドシステムである \system を提案し,この拡張データセット上で予測モデルをトレーニングすることにより,パフォーマンスが向上する拡張データセットを出力する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
システムコンポーネントの広範な評価を行い、実世界のデータセット上で特徴選択アルゴリズムをベンチマークする。
関連論文リスト
- AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Traceable Automatic Feature Transformation via Cascading Actor-Critic
Agents [25.139229855367088]
特徴変換は機械学習(ML)の有効性と解釈可能性を高めるための必須課題である
特徴変換タスクを、特徴生成と選択の反復的、ネストされたプロセスとして定式化する。
高次元データにおけるSOTAとロバスト性と比較すると,F1スコアの24.7%の改善が見られた。
論文 参考訳(メタデータ) (2022-12-27T08:20:19Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Federated Feature Selection for Cyber-Physical Systems of Systems [0.3609538870261841]
自動運転車の一群は、データ伝送を99%まで減らし、無視できない情報損失を抑えるために利用する、最適な機能セットに関するコンセンサスを見つける。
以上の結果から、自動運転車の車両群は、データ伝送を99%まで減らし、無視できる情報損失を減らし、最適な機能セットにコンセンサスを見出すことができた。
論文 参考訳(メタデータ) (2021-09-23T12:16:50Z) - Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文 参考訳(メタデータ) (2021-07-11T05:39:14Z) - Text Classification Using Hybrid Machine Learning Algorithms on Big Data [0.0]
本研究では,2つの教師付き機械学習アルゴリズムとテキストマイニング技術を組み合わせてハイブリッドモデルを生成する。
その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のNa"ive BayesとSVMモデルに対して96.76%の精度を示した。
論文 参考訳(メタデータ) (2021-03-30T19:02:48Z) - Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。
提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。
金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文 参考訳(メタデータ) (2021-02-16T17:50:51Z) - Feedback-Based Dynamic Feature Selection for Constrained Continuous Data
Acquisition [6.947442090579469]
本稿では,動的システムからデータ収集のための特徴セットをステップワイズで効率的に決定する,フィードバックに基づく動的特徴選択アルゴリズムを提案する。
評価の結果,提案手法は制約付きベースライン法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-11-10T14:19:01Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。