論文の概要: Popularity Driven Data Integration
- arxiv url: http://arxiv.org/abs/2209.14049v1
- Date: Wed, 28 Sep 2022 12:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 18:17:21.788435
- Title: Popularity Driven Data Integration
- Title(参考訳): 人気駆動型データ統合
- Authors: Fausto Giunchiglia, Simone Bocca, Mattia Fumagalli, Mayukh Bagchi and
Alessio Zamboni
- Abstract要約: iTelosは、このプロセスの効果を最小化するための汎用方法論である。
ある種のデータが再利用されるほど、再利用されるものが増え、再利用されるものも少なくなります。
- 参考スコア(独自算出の注目度): 3.876106460738419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: More and more, with the growing focus on large scale analytics, we are
confronted with the need of integrating data from multiple sources. The problem
is that these data are impossible to reuse as-is. The net result is high cost,
with the further drawback that the resulting integrated data will again be
hardly reusable as-is. iTelos is a general purpose methodology aiming at
minimizing the effects of this process. The intuition is that data will be
treated differently based on their popularity: the more a certain set of data
have been reused, the more they will be reused and the less they will be
changed across reuses, thus decreasing the overall data preprocessing costs,
while increasing backward compatibility and future sharing
- Abstract(参考訳): 大規模分析への注目が高まる中、私たちは複数のソースからのデータを統合する必要性に直面しています。
問題は、これらのデータがそのまま再利用できないことだ。
ネットの結果はコストが高く、結果として得られる統合データが再び再利用可能なものにならないという欠点もある。
iTelosは、このプロセスの効果を最小化するための汎用方法論である。
データの特定のセットが再利用されるほど、再利用され、再利用によって変更される可能性が少なくなるため、後方互換性と将来の共有性が向上しつつ、データ全体の前処理コストが削減される。
関連論文リスト
- The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - Analyzing domain shift when using additional data for the MICCAI KiTS23
Challenge [5.745796568988237]
トレーニング中のドメインシフトを改善する手法について検討し、前処理やトレーニングに利用できる追加データを元のデータと併用する方法について検討する。
以上の結果から,ヒストグラムマッチングによる追加データの変換は,単純な正規化よりも良好な結果が得られた。
論文 参考訳(メタデータ) (2023-09-05T07:31:22Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Graceful Forgetting II. Data as a Process [0.0]
本稿では,データ取得,キュレーション,活用の3つの段階を区別する。
第2フェーズの機能であるキュレーションは、限られたストレージが与えられたデータの将来的な価値を最大化することである。
このためには、(a)データが要約統計の形式をとる必要があり、(b)これらの統計は、無限に再スケーリングするプロセスに従う必要がある、と私は主張する。
論文 参考訳(メタデータ) (2022-11-20T09:02:51Z) - How Much Data Are Augmentations Worth? An Investigation into Scaling
Laws, Invariance, and Implicit Regularization [76.58017437197859]
アウト・オブ・ディストリビューションテストのシナリオでは、多種多様なサンプルを生成するが、データ分散と矛盾しない増分は、追加のトレーニングデータよりもさらに価値がある。
トレーニング中に増強が付加性をもたらし、損失景観を効果的に平らにすることを示す。
論文 参考訳(メタデータ) (2022-10-12T17:42:01Z) - Few-Shot Class-Incremental Learning via Entropy-Regularized Data-Free
Replay [52.251188477192336]
FSCIL (Few-shot class-incremental Learning) は,データ制限のあるクラスを段階的に学習する深層学習システムを実現するために提案されている。
データリプレイの採用は驚くほど好都合である,という実証的な結果を通じて示します。
本研究では,実データにアクセスすることなく,ジェネレータによるデータ合成が可能なデータフリーリプレイを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:30:51Z) - Robbing the Fed: Directly Obtaining Private Data in Federated Learning
with Modified Models [56.0250919557652]
フェデレーション学習は、ユーザーのプライバシーと効率を高めるという約束で急速に人気を集めている。
ユーザプライバシに対する以前の攻撃はスコープが限られており、少数のデータポイントに集約されたグラデーション更新にはスケールしない。
共有モデルアーキテクチャの最小限ではあるが悪意のある変更に基づく新しい脅威モデルを導入する。
論文 参考訳(メタデータ) (2021-10-25T15:52:06Z) - UnrealPerson: An Adaptive Pipeline towards Costless Person
Re-identification [102.58619642363959]
本稿では,unrealpersonという,非現実的な画像データをフル活用して,トレーニングとデプロイメントの両面でコストを削減する新しいパイプラインを提案する。
3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1の精度が得られる。
論文 参考訳(メタデータ) (2020-12-08T08:15:30Z) - WeMix: How to Better Utilize Data Augmentation [36.07712244423405]
我々はデータ拡張の長所と短所を明らかにする包括的分析を開発する。
データ拡張の主な制限は、データバイアスから生じます。
AugDrop" と "MixLoss" という2つの新しいアルゴリズムを開発し、データ拡張におけるデータのバイアスを補正する。
論文 参考訳(メタデータ) (2020-10-03T03:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。