論文の概要: Hierarchical Dataset Selection for High-Quality Data Sharing
- arxiv url: http://arxiv.org/abs/2512.10952v1
- Date: Thu, 11 Dec 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.577924
- Title: Hierarchical Dataset Selection for High-Quality Data Sharing
- Title(参考訳): 高品質データ共有のための階層的データセット選択
- Authors: Xiaona Zhou, Yingyan Zeng, Ran Jin, Ismini Lourentzou,
- Abstract要約: 本稿では,データセットとグループ(例えば,コレクション,機関)レベルでユーティリティをモデル化するデータセット選択手法を提案する。
DaSHは最先端のデータ選択ベースラインを26.2%精度で上回り、探索手順は大幅に少ない。
- 参考スコア(独自算出の注目度): 6.079330426909266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.
- Abstract(参考訳): 現代の機械学習の成功は、高品質なトレーニングデータへのアクセスに依存している。
パブリックリポジトリからデータを取得したり、機関間でデータを共有するといった現実のシナリオでは、データは自然に、関連性、品質、ユーティリティによって異なる個別のデータセットに分類されます。
どのリポジトリや機関が有用なデータセットを検索するか、どのデータセットをモデルトレーニングに組み込むかは重要な決定である。
本研究では,大規模で異種なプールからデータセット全体を選択し,リソース制約下でのダウンストリーム性能を改善するという,データセット選択のタスクを形式化する。
本稿では,データセットとグループ(例えば,コレクション,機関)レベルのユーティリティをモデル化し,限られた観測値から効率的な一般化を可能にするデータセット選択手法である階層によるデータセット選択を提案する。
2つの公開ベンチマーク(Digit-FiveとDomainNet)で、DaSHは最先端のデータ選択ベースラインを26.2%精度で上回り、探索手順は大幅に少ない。
DaSHは低リソース設定と関連するデータセットの欠如に対して堅牢であることを示し、実用的なマルチソース学習ワークフローにおけるスケーラブルで適応的なデータセット選択に適している。
関連論文リスト
- DataMIL: Selecting Data for Robot Imitation Learning with Datamodels [77.48472034791213]
データモデルパラダイムに基づいて構築されたポリシー駆動型データ選択フレームワークであるDataMILを紹介する。
品質の概念を使ってデータをフィルタリングする標準的なプラクティスとは異なり、DataMILはタスクの成功のためにデータ選択を直接最適化する。
我々は60以上のシミュレーションと実世界の操作タスクのスイートに対して,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-14T17:55:10Z) - Core-Set Selection for Data-efficient Land Cover Segmentation [16.89537279044251]
リモートセンシング画像セグメンテーションデータセットからサンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。
本手法は,3つの土地被覆分類データセットのランダム選択ベースラインに対して,これらのアプローチをベンチマークする。
この結果は,リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。
論文 参考訳(メタデータ) (2025-05-02T12:22:08Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文 参考訳(メタデータ) (2024-10-12T02:48:34Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。