論文の概要: DataS^3: Dataset Subset Selection for Specialization
- arxiv url: http://arxiv.org/abs/2504.16277v1
- Date: Tue, 22 Apr 2025 21:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.940437
- Title: DataS^3: Dataset Subset Selection for Specialization
- Title(参考訳): DataS^3: 特殊化のためのデータセットサブセットの選択
- Authors: Neha Hulkund, Alaa Maalouf, Levi Cai, Daniel Yang, Tsun-Hsuan Wang, Abigail O'Neil, Timm Haucke, Sandeep Mukherjee, Vikram Ramaswamy, Judy Hansen Shen, Gabriel Tseng, Mike Walmsley, Daniela Rus, Ken Goldberg, Hannah Kerner, Irene Chen, Yogesh Girdhar, Sara Beery,
- Abstract要約: 我々はDS3問題に特化して設計された最初のデータセットとベンチマークであるDataS3を紹介する。
DataS3には、さまざまな現実世界のアプリケーションドメインが含まれており、それぞれに専門的なデプロイのセットがある。
我々は、手動でキュレートされた(デプロイ固有の)専門家サブセットの存在を実証し、正確さで利用可能なすべてのデータでトレーニングを上回り、51.3%まで向上することを示した。
- 参考スコア(独自算出の注目度): 60.589117206895125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world machine learning (ML) applications (e.g. detecting broken bones in x-ray images, detecting species in camera traps), in practice models need to perform well on specific deployments (e.g. a specific hospital, a specific national park) rather than the domain broadly. However, deployments often have imbalanced, unique data distributions. Discrepancy between the training distribution and the deployment distribution can lead to suboptimal performance, highlighting the need to select deployment-specialized subsets from the available training data. We formalize dataset subset selection for specialization (DS3): given a training set drawn from a general distribution and a (potentially unlabeled) query set drawn from the desired deployment-specific distribution, the goal is to select a subset of the training data that optimizes deployment performance. We introduce DataS^3; the first dataset and benchmark designed specifically for the DS3 problem. DataS^3 encompasses diverse real-world application domains, each with a set of distinct deployments to specialize in. We conduct a comprehensive study evaluating algorithms from various families--including coresets, data filtering, and data curation--on DataS^3, and find that general-distribution methods consistently fail on deployment-specific tasks. Additionally, we demonstrate the existence of manually curated (deployment-specific) expert subsets that outperform training on all available data with accuracy gains up to 51.3 percent. Our benchmark highlights the critical role of tailored dataset curation in enhancing performance and training efficiency on deployment-specific distributions, which we posit will only become more important as global, public datasets become available across domains and ML models are deployed in the real world.
- Abstract(参考訳): 多くの現実世界の機械学習(ML)アプリケーション(例えば、X線画像の骨折骨の検出、カメラトラップの種の検出)では、実際にはドメインよりも特定のデプロイメント(例えば、特定の病院、特定の国立公園)でうまく機能する必要がある。
しかしながら、デプロイメントは不均衡でユニークなデータ分散を持つことが多い。
トレーニングディストリビューションとデプロイメントディストリビューションの相違は、最適なサブパフォーマンスをもたらし、利用可能なトレーニングデータからデプロイメント特化サブセットを選択する必要性を強調します。
汎用ディストリビューションから抽出されたトレーニングセットと、所望のデプロイメント固有のディストリビューションから抽出された(潜在的にラベル付けされていない)クエリセットが与えられた場合、その目標は、デプロイメント性能を最適化するトレーニングデータのサブセットを選択することである。
DS3問題に特化して設計された最初のデータセットとベンチマークであるDataS^3を紹介する。
DataS^3は、さまざまな現実世界のアプリケーションドメインを含み、それぞれに専門的なデプロイのセットがある。
我々は,DataS^3上でコアセット,データフィルタリング,データキュレーションなど,さまざまなファミリーのアルゴリズムを総合的に評価し,デプロイ固有のタスクにおいて一般分布手法が一貫して失敗することを確認する。
さらに、手動でキュレートされた(デプロイ固有の)専門家サブセットの存在を実証し、すべての利用可能なデータを51.3%の精度でトレーニングした。
私たちのベンチマークでは、デプロイメント固有のディストリビューションのパフォーマンス向上とトレーニング効率向上における、データセットキュレーションの調整の重要性を強調しています。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - $\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。
例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文 参考訳(メタデータ) (2024-10-07T03:15:11Z) - Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
スペシャリスト言語モデル(LM)は特定のタスクやドメインに焦点を合わせ、それらがしばしば同じ大きさのジェネラリスト言語モデルより優れている。
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。
CRISPは、これらのクラスタのジェネリストデータセットとサンプルを、より小さなスペシャリストデータセットの頻度に基づいてクラスタ化する。
論文 参考訳(メタデータ) (2024-09-30T20:49:54Z) - Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains [9.429772474335122]
我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
本手法は,市販の機械学習モデルを用いて実装されるように設計されている。
論文 参考訳(メタデータ) (2024-02-21T22:01:10Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z) - Subspace Learning for Personalized Federated Optimization [7.475183117508927]
本稿では,AIシステムにおけるパーソナライズされた学習の問題に対処する手法を提案する。
提案手法は、パーソナライズされたクライアント評価設定と見当たらないクライアント評価設定の両方において、一貫した利得が得られることを示す。
論文 参考訳(メタデータ) (2021-09-16T00:03:23Z) - Differential-Critic GAN: Generating What You Want by a Cue of
Preferences [34.25181656518662]
本稿では,ユーザ要求データの分布を学習するためのディファレンシャル・クリティカル・ジェネレーティブ・アドバイザリ・ネットワーク(DiCGAN)を提案する。
DiCGANは、ユーザの期待に応えて望まれるデータを生成し、望まれる特性を持つ生物製品の設計を支援する。
論文 参考訳(メタデータ) (2021-07-14T13:44:07Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z) - Learn to Expect the Unexpected: Probably Approximately Correct Domain
Generalization [38.345670899258515]
ドメインの一般化は、トレーニングデータとテストデータが異なるデータドメインから来るときの機械学習の問題である。
データ分布にメタ分布が存在する領域をまたいで一般化する単純な理論モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T17:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。