論文の概要: Nearly Optimal Subdata Selection
- arxiv url: http://arxiv.org/abs/2604.23930v1
- Date: Mon, 27 Apr 2026 01:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.681524
- Title: Nearly Optimal Subdata Selection
- Title(参考訳): ほぼ最適部分データ選択
- Authors: Min Yang, Wei Zheng, John Stufken, Ming-Chung Chang, Ting Tian, Xueqin Wang,
- Abstract要約: $n$から$N$のデータポイントから$n$のサブデータを選択するための中心的な質問は、どの$n$ポイントを選択するかである。
我々は、情報に基づくサブデータ選択のための新しい方法論を開発し、その結果、最適な解にアプローチするサブデータを得る。
提案手法により得られたデータは非常に効率的であり,既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.067057089303134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When, in terms of the number of data points, the size of a dataset exceeds available computing resources, or when labeling is expensive, an attractive solution consists of selecting only some of the data points (subdata) for further consideration. A central question for selecting subdata of size $n$ from $N$ available data points is which $n$ points to select. While an answer to this question depends on the objective, one approach for a parametric model and a focus on parameter estimation is to select subdata that retains maximal information. Identifying such subdata is a classical NP-hard problem due to its inherent discreteness. Based on optimal approximate design theory, we develop a new methodology for information-based subdata selection, resulting in subdata that approaches the optimal solution. To achieve this, we develop a novel algorithm that applies to a general model, accommodates arbitrary choices of $N$ and $n$, and supports multiple optimality criteria, and we prove its convergence. Moreover, the new methodology facilitates an assessment of the efficiency of subdata selected by any method by obtaining tight lower and upper bounds for the efficiency. We show that the subdata obtained through the new methodology is highly efficient and outperforms all existing methods.
- Abstract(参考訳): データポイントの数に関して、データセットのサイズが利用可能なコンピューティングリソースを超えている場合、あるいはラベル付けが高価である場合、魅力的なソリューションは、さらなる考慮のためにデータポイント(サブデータ)の一部だけを選択することである。
$n$から$N$のデータポイントから$n$のサブデータを選択するための中心的な質問は、どの$n$ポイントを選択するかである。
この質問に対する答えは目的によって異なるが、パラメトリックモデルに対する一つのアプローチとパラメータ推定への焦点は、最大情報を保持するサブデータを選択することである。
そのような部分データの同定は、その固有の離散性のために古典的なNPハード問題である。
最適近似設計理論に基づき、情報に基づくサブデータ選択のための新しい方法論を開発し、その結果、最適解にアプローチするサブデータを得る。
これを実現するために、一般モデルに適用し、任意の選択を$N$と$n$に対応し、複数の最適性基準をサポートする新しいアルゴリズムを開発し、その収束性を証明する。
さらに, 提案手法は, 任意の手法で選択したサブデータの効率を評価することを容易にする。
提案手法により得られたデータは非常に効率的であり,既存の手法よりも優れていることを示す。
関連論文リスト
- Data Selection for ERMs [67.57726352698933]
我々は、$mathcalA$が、少なくとも$nll N$のデータポイントで訓練された時に、いかにうまく機能するかを研究する。
結果は,平均推定,線形分類,線形回帰に対する最適データ選択境界を含む。
論文 参考訳(メタデータ) (2025-04-20T11:26:01Z) - TSDS: Data Selection for Task-Specific Model Finetuning [39.19448080265558]
タスク固有の微調整の有効性は、適切なトレーニングデータの選択に大きく依存する。
本稿では,タスク固有のモデル微調整のためのデータ選択フレームワークであるTSDS(Task-Specific Data Selection)を提案する。
提案手法で選択したデータを用いて,1%選択率で命令チューニングを行う場合,全データセットで処理性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-15T05:54:17Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - S$^3$VAADA: Submodular Subset Selection for Virtual Adversarial Active
Domain Adaptation [49.01925978752677]
現実のシナリオでは、少数のターゲットデータに対してラベルを取得することは可能かもしれません。
我々は,S$3$VAADAを提案する。これは,ラベルに対する最大情報サブセットを選択するための,新しいサブモジュール基準を導入し,また,クラスタベースのDA手順を強化する。
我々のアプローチは、ドメインシフトの度合いの異なるデータセットにおいて、競合する最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-09-18T10:53:57Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Self-Representation Based Unsupervised Exemplar Selection in a Union of
Subspaces [27.22427926657327]
表現係数の $ell_1$ ノルムによって測定されたすべてのデータポイントを最もよく再構成する部分集合を探索する新しい指数選択モデルを提案する。
データセットが独立部分空間の和から引き出されるとき、我々の方法は各部分空間から十分な数の代表を選択できる。
また,不均衡なデータに対して頑健で,大規模データに対して効率の良い,模範的なサブスペースクラスタリング手法も開発している。
論文 参考訳(メタデータ) (2020-06-07T19:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。