論文の概要: SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional
Shifts
- arxiv url: http://arxiv.org/abs/2108.12992v1
- Date: Mon, 30 Aug 2021 05:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 20:49:47.519688
- Title: SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional
Shifts
- Title(参考訳): ShiFT15M:分散シフトを伴う多目的大規模ファッションデータセット
- Authors: Masanari Kimura, Takuma Nakamura, Yuki Saito
- Abstract要約: 多くの機械学習アルゴリズムは、トレーニングデータとテストデータは同じ分布に従うと仮定する。
トレーニングとテストの間にデータ分布が変化する状況下でモデルを評価するために使用できるデータセットShiFT15Mを提案する。
- 参考スコア(独自算出の注目度): 15.596215868589704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning algorithms assume that the training data and the test
data follow the same distribution. However, such assumptions are often violated
in real-world machine learning problems. In this paper, we propose SHIFT15M, a
dataset that can be used to properly evaluate models in situations where the
distribution of data changes between training and testing. The SHIFT15M dataset
has several good properties: (i) Multiobjective. Each instance in the dataset
has several numerical values that can be used as target variables. (ii)
Large-scale. The SHIFT15M dataset consists of 15million fashion images. (iii)
Coverage of types of dataset shifts. SHIFT15M contains multiple dataset shift
problem settings (e.g., covariate shift or target shift). SHIFT15M also enables
the performance evaluation of the model under various magnitudes of dataset
shifts by switching the magnitude. In addition, we provide software to handle
SHIFT15M in a very simple way: https://github.com/st-tech/zozo-shift15m.
- Abstract(参考訳): 多くの機械学習アルゴリズムは、トレーニングデータとテストデータは同じ分布に従うと仮定する。
しかし、そのような仮定は現実世界の機械学習問題にしばしば違反する。
本稿では,トレーニングとテストの間にデータ分布が変化する状況下で,モデルを適切に評価するためのデータセットShiFT15Mを提案する。
ShiFT15Mデータセットにはいくつかの優れた特性がある。
データセットの各インスタンスは、いくつかの数値を持ち、ターゲット変数として使用できる。
(ii)大規模。
shift15mデータセットは1500万のファッション画像で構成されている。
(iii)データセットのタイプシフトのカバレッジ。
shift15mには、複数のデータセットシフト問題設定(例えば、コ変量シフトやターゲットシフト)が含まれている。
shift15mはまた、マグニチュードを切り替えることで、データセットシフトの様々な大きさのモデルの性能評価を可能にする。
さらに、非常に単純な方法でshift15mを処理するソフトウェアも提供しています。
関連論文リスト
- UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Estimating and Explaining Model Performance When Both Covariates and
Labels Shift [36.94826820536239]
両ラベルの結合シフトといくつかの特徴を考慮した新しい分散シフトモデル Sparse Joint Shift (SJS) を提案する。
また、SJSにおける分散シフトを特徴付けるアルゴリズムフレームワークSEESを提案し、ラベルなしで新しいデータ上でのモデルの性能を推定する。
論文 参考訳(メタデータ) (2022-09-18T01:16:16Z) - A unified framework for dataset shift diagnostics [2.449909275410288]
教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:34:45Z) - MetaShift: A Dataset of Datasets for Evaluating Contextual Distribution
Shifts and Training Conflicts [20.09404891618634]
ここでは410クラスにわたる12,868の自然画像の集合であるMetaShiftを紹介する。
それぞれのデータセットに何があるのかを明確に説明し、各データセット間の分散シフトの量を測定する距離スコアを提供する。
MetaShiftは、モデルトレーニング中のデータサブセット間の競合を可視化する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2022-02-14T07:40:03Z) - An Empirical Investigation of Model-to-Model Distribution Shifts in
Trained Convolutional Filters [2.0305676256390934]
本稿では,様々なコンピュータビジョンタスクに使用される画像データの分布変化について検討した結果について述べる。
元のトレーニングデータやテストデータを解析する代わりに、訓練されたモデルの学習重量の変化を研究することを提案する。
論文 参考訳(メタデータ) (2022-01-20T21:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。