論文の概要: Sketching Datasets for Large-Scale Learning (long version)
- arxiv url: http://arxiv.org/abs/2008.01839v3
- Date: Thu, 24 Jun 2021 21:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:56:20.371485
- Title: Sketching Datasets for Large-Scale Learning (long version)
- Title(参考訳): 大規模学習のためのスケッチデータセット(長編)
- Authors: R\'emi Gribonval and Antoine Chatalic and Nicolas Keriven and Vincent
Schellekens and Laurent Jacques and Philip Schniter
- Abstract要約: 圧縮学習(Compressive Learning)は、データセットを学習前に大量に圧縮する大規模機械学習のアプローチである。
スケッチはまず、慎重に選択された非線形ランダムな特徴を計算し、データセット全体にわたって平均化する。
パラメータは、元のデータセットにアクセスすることなく、スケッチから学習される。
- 参考スコア(独自算出の注目度): 24.478376776509045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article considers "compressive learning," an approach to large-scale
machine learning where datasets are massively compressed before learning (e.g.,
clustering, classification, or regression) is performed. In particular, a
"sketch" is first constructed by computing carefully chosen nonlinear random
features (e.g., random Fourier features) and averaging them over the whole
dataset. Parameters are then learned from the sketch, without access to the
original dataset. This article surveys the current state-of-the-art in
compressive learning, including the main concepts and algorithms, their
connections with established signal-processing methods, existing theoretical
guarantees -- on both information preservation and privacy preservation, and
important open problems.
- Abstract(参考訳): 本稿では,学習前にデータセットが大規模に圧縮される大規模機械学習(クラスタリング,分類,回帰など)へのアプローチである「圧縮学習」について考察する。
特に「スケッチ」は、まず慎重に選択された非線形ランダムな特徴(例えば、ランダムなフーリエ特徴)を計算し、データセット全体の平均化によって構築される。
パラメータは、元のデータセットにアクセスすることなく、スケッチから学習される。
本稿では,主に概念とアルゴリズム,確立された信号処理手法との関係,情報保存とプライバシ保護の両面での既存の理論的保証,重要なオープン問題など,圧縮学習の現状について調査する。
関連論文リスト
- Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。
異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。
我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文 参考訳(メタデータ) (2024-09-20T09:53:27Z) - Koopcon: A new approach towards smarter and less complex learning [13.053285552524052]
ビッグデータの時代、データセットの膨大な量と複雑さは、機械学習において大きな課題を引き起こします。
本稿では,クープマン演算子理論を背景とした,革新的オートエンコーダに基づくデータセット凝縮モデルを提案する。
人間の脳の予測的コーディング機構にインスパイアされた我々のモデルは、データをエンコードし再構成するための新しいアプローチを活用する。
論文 参考訳(メタデータ) (2024-05-22T17:47:14Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - GRAFFL: Gradient-free Federated Learning of a Bayesian Generative Model [8.87104231451079]
本稿では、GRAFFLと呼ばれる、最初の勾配のない連邦学習フレームワークを提案する。
参加する各機関から得られた暗黙の情報を用いて、パラメータの後方分布を学習する。
本稿では,GRAFFLに基づくベイズ混合モデルを提案する。
論文 参考訳(メタデータ) (2020-08-29T07:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。