論文の概要: Disentangling the Roles of Representation and Selection in Data Pruning
- arxiv url: http://arxiv.org/abs/2507.03648v1
- Date: Fri, 04 Jul 2025 15:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.818671
- Title: Disentangling the Roles of Representation and Selection in Data Pruning
- Title(参考訳): データ・プルーニングにおける表現と選択の役割の解明
- Authors: Yupei Du, Yingjin Song, Hugh Mee Wong, Daniil Ignatev, Albert Gatt, Dong Nguyen,
- Abstract要約: 我々はデータプルーニングをデータ表現と選択アルゴリズムの2つの重要なコンポーネントに分解する。
我々の理論的および実証的な結果は、表現の重要な役割を浮き彫りにする。
異なる選択アルゴリズムは異なる設定で優れており、どのアルゴリズムも他のアルゴリズムより一貫して優れているわけではない。
- 参考スコア(独自算出の注目度): 6.141776277655227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data pruning, selecting small but impactful subsets, offers a promising way to efficiently scale NLP model training. However, existing methods often involve many different design choices, which have not been systematically studied. This limits future developments. In this work, we decompose data pruning into two key components: the data representation and the selection algorithm, and we systematically analyze their influence on the selection of instances. Our theoretical and empirical results highlight the crucial role of representations: better representations, e.g., training gradients, generally lead to a better selection of instances, regardless of the chosen selection algorithm. Furthermore, different selection algorithms excel in different settings, and none consistently outperforms the others. Moreover, the selection algorithms do not always align with their intended objectives: for example, algorithms designed for the same objective can select drastically different instances, highlighting the need for careful evaluation.
- Abstract(参考訳): 小さいが影響のあるサブセットを選択するデータプルーニングは、NLPモデルのトレーニングを効率的にスケールするための有望な方法を提供する。
しかし、既存の手法は、体系的に研究されていない多くの異なる設計選択を含むことが多い。
これにより今後の発展が制限される。
本研究では、データプルーニングをデータ表現と選択アルゴリズムの2つの重要なコンポーネントに分解し、それらのデータプルーニングがインスタンスの選択に与える影響を系統的に分析する。
より優れた表現(例えば、トレーニング勾配)は、選択された選択アルゴリズムに関係なく、一般的に、より優れたインスタンスの選択につながる。
さらに、異なる選択アルゴリズムは異なる設定で優れており、他のアルゴリズムよりも一貫して優れているものはない。
さらに、選択アルゴリズムは、意図した目的と常に一致しない。例えば、同じ目的のために設計されたアルゴリズムは、非常に異なるインスタンスを選択することができ、注意深い評価の必要性を強調している。
関連論文リスト
- Algorithm Selection with Probing Trajectories: Benchmarking the Choice of Classifier Model [0.20718016474717196]
BBOBベンチマークスイートを用いた分類タスクにおいて、17の異なる分類器と3種類のトラジェクトリを用いてベンチマーク研究を行う。
分類器の選択は、特徴ベースのモデルと間隔ベースのモデルが最良の選択であることを示している。
論文 参考訳(メタデータ) (2025-01-20T11:28:45Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Fair Feature Subset Selection using Multiobjective Genetic Algorithm [0.0]
フェアネスと精度を両立させる特徴部分選択手法を提案する。
モデル性能の指標としてF1-Scoreを用いる。
最も一般的なフェアネスベンチマークデータセットの実験では、進化的アルゴリズムを用いることで、フェアネスと精度のトレードオフを効果的に探索できることが示されている。
論文 参考訳(メタデータ) (2022-04-30T22:51:19Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Multiple-criteria Based Active Learning with Fixed-size Determinantal
Point Processes [43.71112693633952]
本稿では,情報性,代表性,多様性の3つの相補的基準を取り入れた,複数基準に基づく能動学習アルゴリズムを提案する。
提案手法は,他の複数基準のALアルゴリズムよりも性能が優れ,安定であることを示す。
論文 参考訳(メタデータ) (2021-07-04T13:22:54Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。