論文の概要: Coresets for Relational Data and The Applications
- arxiv url: http://arxiv.org/abs/2210.04249v1
- Date: Sun, 9 Oct 2022 12:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:30:12.144748
- Title: Coresets for Relational Data and The Applications
- Title(参考訳): 関係データ用コアセットとその応用
- Authors: Jiaxiang Chen, Qingyuan Yang, Ruomin Huang and Hu Ding
- Abstract要約: coresetは、元の入力データセットの構造を保存できる小さなセットである。
我々は、クラスタリング、ロジスティック回帰、SVMといった機械学習タスクにコアセットアプローチを適用することができることを示す。
- 参考スコア(独自算出の注目度): 8.573878018370547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A coreset is a small set that can approximately preserve the structure of the
original input data set. Therefore we can run our algorithm on a coreset so as
to reduce the total computational complexity. Conventional coreset techniques
assume that the input data set is available to process explicitly. However,
this assumption may not hold in real-world scenarios. In this paper, we
consider the problem of coresets construction over relational data. Namely, the
data is decoupled into several relational tables, and it could be very
expensive to directly materialize the data matrix by joining the tables. We
propose a novel approach called ``aggregation tree with pseudo-cube'' that can
build a coreset from bottom to up. Moreover, our approach can neatly circumvent
several troublesome issues of relational learning problems [Khamis et al., PODS
2019]. Under some mild assumptions, we show that our coreset approach can be
applied for the machine learning tasks, such as clustering, logistic regression
and SVM.
- Abstract(参考訳): コアセットは、元の入力データセットの構造を概ね保存できる小さなセットである。
したがって,アルゴリズムをコアセット上で実行することで,計算量を削減することができる。
従来のコアセット技術は、入力データセットが明示的に処理できると仮定する。
しかし、この仮定は現実のシナリオでは成り立たないかもしれない。
本稿では,関係データに対するコアセット構築の問題について考察する。
つまり、データは複数のリレーショナルテーブルに分離され、テーブルに結合することでデータマトリックスを直接実現するのは非常に高価である。
我々は, コアセットを底から上まで構築できる ``aggregation tree with pseudo-cube''' という新しいアプローチを提案する。
さらに,本手法は,関係学習問題(Khamis et al., PODS 2019)のいくつかの問題を回避することができる。
いくつかの軽微な仮定の下で、クラスタリング、ロジスティック回帰、SVMといった機械学習タスクにコアセットアプローチを適用することができることを示す。
関連論文リスト
- Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - AutoCoreset: An Automatic Practical Coreset Construction Framework [65.37876706107764]
コアセットは入力セットの小さな重み付き部分集合であり、損失関数によく似ている。
本稿では,ユーザからの入力データと所望のコスト関数のみを必要とするコアセット構築のための自動フレームワークを提案する。
この集合は有限であるが、コア集合は極めて一般であることを示す。
論文 参考訳(メタデータ) (2023-05-19T19:59:52Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - A Unified Approach to Coreset Learning [24.79658173754555]
与えられたデータセットと損失関数のコアセットは、通常、与えられたクエリの集合からの全てのクエリの損失を近似する小さな重み付きセットである。
コアセット構築のための一般学習型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-04T17:48:05Z) - Robust Coreset for Continuous-and-Bounded Learning (with Outliers) [30.91741925182613]
本研究では,エム連続有界学習問題に対する新しいロバストなコアセット法を提案する。
私たちの堅牢なコアセットは、完全にダイナミックな環境で効率的に維持できます。
論文 参考訳(メタデータ) (2021-06-30T19:24:20Z) - Introduction to Core-sets: an Updated Survey [18.059360820527687]
機械学習問題では、ある候補解の空間上での目的関数の最小化または最大化が目的である。
従来のアルゴリズムは、無限分散ストリームの並列リアルタイム計算を必要とする現代のシステムを扱うことはできない。
この調査は、こうした構成をふりかえりとして要約し、最先端を統一し、単純化することを目的としている。
論文 参考訳(メタデータ) (2020-11-18T16:31:34Z) - An Integer Linear Programming Framework for Mining Constraints from Data [81.60135973848125]
データから制約をマイニングするための一般的なフレームワークを提案する。
特に、構造化された出力予測の推論を整数線形プログラミング(ILP)問題とみなす。
提案手法は,9×9のスドクパズルの解法を学習し,基礎となるルールを提供することなく,例からツリー問題を最小限に分散させることが可能であることを示す。
論文 参考訳(メタデータ) (2020-06-18T20:09:53Z) - Coresets via Bilevel Optimization for Continual Learning and Streaming [86.67190358712064]
濃度制約付き二レベル最適化による新しいコアセット構成を提案する。
我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。
論文 参考訳(メタデータ) (2020-06-06T14:20:25Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。