論文の概要: A Dataset is Worth 1 MB
- arxiv url: http://arxiv.org/abs/2602.23358v1
- Date: Thu, 26 Feb 2026 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.861635
- Title: A Dataset is Worth 1 MB
- Title(参考訳): Datasetは1MBの価値がある
- Authors: Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen,
- Abstract要約: 本稿では,Pseudo-Labels as Data (PLADA)を提案する。
10種類の多様なデータセットの実験により、我々の手法が1MB未満のペイロードでタスク知識を転送できることが示されている。
- 参考スコア(独自算出の注目度): 21.966096149416714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A dataset server must often distribute the same large payload to many clients, incurring massive communication costs. Since clients frequently operate on diverse hardware and software frameworks, transmitting a pre-trained model is often infeasible; instead, agents require raw data to train their own task-specific models locally. While dataset distillation attempts to compress training signals, current methods struggle to scale to high-resolution data and rarely achieve sufficiently small files. In this paper, we propose Pseudo-Labels as Data (PLADA), a method that completely eliminates pixel transmission. We assume agents are preloaded with a large, generic, unlabeled reference dataset (e.g., ImageNet-1K, ImageNet-21K) and communicate a new task by transmitting only the class labels for specific images. To address the distribution mismatch between the reference and target datasets, we introduce a pruning mechanism that filters the reference dataset to retain only the labels of the most semantically relevant images for the target task. This selection process simultaneously maximizes training efficiency and minimizes transmission payload. Experiments on 10 diverse datasets demonstrate that our approach can transfer task knowledge with a payload of less than 1 MB while retaining high classification accuracy, offering a promising solution for efficient dataset serving.
- Abstract(参考訳): データセットサーバは、多くのクライアントに同じ大きなペイロードを分散し、膨大な通信コストを発生させる必要がある。
クライアントは様々なハードウェアやソフトウェアフレームワークで頻繁に運用されるため、事前訓練されたモデルを送信することはしばしば不可能である。
データセットの蒸留は訓練信号を圧縮しようとするが、現在の方法では高解像度のデータへのスケールが困難であり、十分に小さなファイルが得られない。
本稿では,Pseudo-Labels as Data (PLADA)を提案する。
エージェントは、大規模で汎用的でラベルなしの参照データセット(例えば、ImageNet-1K、ImageNet-21K)でプリロードされ、特定の画像のクラスラベルのみを送信することで、新しいタスクを通信する。
参照データセットとターゲットデータセットの分布ミスマッチに対処するために、参照データセットをフィルタして、ターゲットタスクに最も意味のあるイメージのラベルのみを保持するプルーニング機構を導入する。
この選択プロセスは、トレーニング効率を同時に最大化し、送信ペイロードを最小化する。
10種類の多様なデータセットの実験により、我々の手法は、高い分類精度を維持しながら、1MB未満のペイロードでタスク知識を転送できることを示し、効率的なデータセット提供のための有望なソリューションを提供する。
関連論文リスト
- No One Left Behind: How to Exploit the Incomplete and Skewed Multi-Label Data for Conversion Rate Prediction [48.578518946398354]
ほとんどの現実世界のオンライン広告システムでは、広告主は様々な顧客獲得目標を持つ。
一般的な解決策は、マルチタスク学習を使用して、クリック後のデータの統一モデルをトレーニングし、さまざまなターゲットに対する変換率(CVR)を見積もることである。
実際には、CVR予測は、多くの広告主がプライバシやその他の制約により、一部のユーザー変換アクションのみを提出するので、欠落したコンバージョンデータに遭遇することが多い。
論文 参考訳(メタデータ) (2025-12-15T13:14:20Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Dynamic Distillation Network for Cross-Domain Few-Shot Recognition with
Unlabeled Data [21.348965677980104]
未ラベルのターゲットデータを用いたドメイン間数ショット認識の問題に対処する。
STARTUPは自己学習を用いてこの問題に対処する最初の方法である。
本稿では, 新規/ベースデータセットからのラベルなし画像を容易にするための, 簡易な動的蒸留に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T23:44:34Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。