論文の概要: Graceful Forgetting II. Data as a Process
- arxiv url: http://arxiv.org/abs/2211.15441v1
- Date: Sun, 20 Nov 2022 09:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:34:40.628250
- Title: Graceful Forgetting II. Data as a Process
- Title(参考訳): グレースフルフォーミングII。
プロセスとしてのデータ
- Authors: Alain de Cheveign\'e
- Abstract要約: 本稿では,データ取得,キュレーション,活用の3つの段階を区別する。
第2フェーズの機能であるキュレーションは、限られたストレージが与えられたデータの将来的な価値を最大化することである。
このためには、(a)データが要約統計の形式をとる必要があり、(b)これらの統計は、無限に再スケーリングするプロセスに従う必要がある、と私は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data are rapidly growing in size and importance for society, a trend
motivated by their enabling power. The accumulation of new data, sustained by
progress in technology, leads to a boundless expansion of stored data, in some
cases with an exponential increase in the accrual rate itself. Massive data are
hard to process, transmit, store, and exploit, and it is particularly hard to
keep abreast of the data store as a whole. This paper distinguishes three
phases in the life of data: acquisition, curation, and exploitation. Each
involves a distinct process, that may be separated from the others in time,
with a different set of priorities. The function of the second phase, curation,
is to maximize the future value of the data given limited storage. I argue that
this requires that (a) the data take the form of summary statistics and (b)
these statistics follow an endless process of rescaling. The summary may be
more compact than the original data, but its data structure is more complex and
it requires an on-going computational process that is much more sophisticated
than mere storage. Rescaling results in dimensionality reduction that may be
beneficial for learning, but that must be carefully controlled to preserve
relevance. Rescaling may be tuned based on feedback from usage, with the
proviso that our memory of the past serves the future, the needs of which are
not fully known.
- Abstract(参考訳): データは急速に拡大し、社会にとっての重要性が高まっている。
新しいデータの蓄積は、技術の進歩によって持続され、蓄積されたデータの無制限な拡大につながる。
大量のデータは処理、送信、保存、およびエクスプロイトが困難であり、データストア全体を維持することは特に困難である。
本稿では,データの収集,キュレーション,活用という3つの段階を区別する。
それぞれのプロセスは、異なる優先順位のセットで、時間内に他のプロセスと分離される可能性がある。
第2フェーズの機能はキュレーションであり、限られたストレージが与えられたデータの将来の価値を最大化することである。
私はこれを要求します。
(a)データは要約統計の形式をとり、
b) これらの統計は無限に再スケーリングする過程に従う。
要約は元のデータよりもコンパクトだが、データ構造はより複雑であり、単純なストレージよりもはるかに高度な計算処理を必要とする。
再スケーリングは、学習に有益な次元削減をもたらすが、関連性を維持するために慎重に制御する必要がある。
再スケーリングは、使用からのフィードバックに基づいて調整され、過去の記憶が未来に役立ち、そのニーズが完全には分かっていないことを証明します。
関連論文リスト
- High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Dynamic Spatio-Temporal Summarization using Information Based Fusion [3.038642416291856]
本稿では,重要な時間経過における情報的特徴を識別し,少ない情報的特徴を融合する動的時間的データ要約手法を提案する。
既存の手法とは異なり,本手法は生と要約の両方のタイムステップを保持し,時間とともに情報の変化を包括的に把握する。
我々は,粒子ベースのフローシミュレーション,セキュリティと監視の応用,免疫システム内の生体細胞間相互作用など,多様なデータセットにまたがる手法の汎用性を実証した。
論文 参考訳(メタデータ) (2023-10-02T20:21:43Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Popularity Driven Data Integration [3.876106460738419]
iTelosは、このプロセスの効果を最小化するための汎用方法論である。
ある種のデータが再利用されるほど、再利用されるものが増え、再利用されるものも少なくなります。
論文 参考訳(メタデータ) (2022-09-28T12:38:22Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Understanding and Co-designing the Data Ingestion Pipeline for
Industry-Scale RecSys Training [5.058493679956239]
本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題について概説する。
まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。
第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。
データ前処理サービス(Data PreProcessing Service, DPP)は、数百のノードにスケール可能な、完全に分離された前処理サービスである。
論文 参考訳(メタデータ) (2021-08-20T21:09:34Z) - Xtreaming: an incremental multidimensional projection technique and its
application to streaming data [58.92615359254597]
Xtreamingは、視覚表現を連続的に更新して新しい構造やパターンを反映し、複数の多次元データにアクセスすることなく、新たなインクリメンタルプロジェクション技術である。
実験の結果,Xtreamingは,他のストリーミングやインクリメンタル技術と比較して,グローバルな距離保存の点で競争力があることがわかった。
論文 参考訳(メタデータ) (2020-03-08T04:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。