論文の概要: D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning
- arxiv url: http://arxiv.org/abs/2310.07931v1
- Date: Wed, 11 Oct 2023 23:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:33:51.613221
- Title: D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning
- Title(参考訳): D2プルーニング:データプルーニングにおける多様性と困難さのバランスのためのメッセージパッシング
- Authors: Adyasha Maharana, Prateek Yadav, Mohit Bansal
- Abstract要約: コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
- 参考スコア(独自算出の注目度): 70.98091101459421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analytical theories suggest that higher-quality data can lead to lower test
errors in models trained on a fixed data budget. Moreover, a model can be
trained on a lower compute budget without compromising performance if a dataset
can be stripped of its redundancies. Coreset selection (or data pruning) seeks
to select a subset of the training data so as to maximize the performance of
models trained on this subset, also referred to as coreset. There are two
dominant approaches: (1) geometry-based data selection for maximizing data
diversity in the coreset, and (2) functions that assign difficulty scores to
samples based on training dynamics. Optimizing for data diversity leads to a
coreset that is biased towards easier samples, whereas, selection by difficulty
ranking omits easy samples that are necessary for the training of deep learning
models. This demonstrates that data diversity and importance scores are two
complementary factors that need to be jointly considered during coreset
selection. We represent a dataset as an undirected graph and propose a novel
pruning algorithm, D2 Pruning, that uses forward and reverse message passing
over this dataset graph for coreset selection. D2 Pruning updates the
difficulty scores of each example by incorporating the difficulty of its
neighboring examples in the dataset graph. Then, these updated difficulty
scores direct a graph-based sampling method to select a coreset that
encapsulates both diverse and difficult regions of the dataset space. We
evaluate supervised and self-supervised versions of our method on various
vision and language datasets. Results show that D2 Pruning improves coreset
selection over previous state-of-the-art methods for up to 70% pruning rates.
Additionally, we find that using D2 Pruning for filtering large multimodal
datasets leads to increased diversity in the dataset and improved
generalization of pretrained models.
- Abstract(参考訳): 分析理論は、高品質なデータが固定データ予算でトレーニングされたモデルにおけるテストエラーの低減につながることを示唆している。
さらに、データセットが冗長性から取り除かれた場合、モデルをパフォーマンスを損なうことなく、低い計算予算でトレーニングすることができる。
coreset selection(またはdata pruning)は、トレーニングデータのサブセットを選択して、このサブセットでトレーニングされたモデルのパフォーマンスを最大化することを目的としている。
1) コアセットにおけるデータ多様性を最大化するための幾何学に基づくデータ選択と, (2) トレーニングダイナミクスに基づいてサンプルに難易度スコアを割り当てる関数である。
データ多様性の最適化は、より簡単なサンプルに偏ったコアセットにつながるが、難易度ランキングによる選択は、ディープラーニングモデルのトレーニングに必要な簡単なサンプルを省略する。
これは、データの多様性と重要度スコアが、コアセットの選択時に共同で考慮する必要がある2つの相補的な要因であることを示している。
我々は、データセットを非指向グラフとして表現し、このデータセットグラフ上で前後のメッセージを転送してコアセット選択を行う新しいプルーニングアルゴリズムD2プルーニングを提案する。
d2 pruningは、隣り合う例の難易度をデータセットグラフに組み込むことで、各例の難易度スコアを更新する。
そして、これらの更新困難度スコアをグラフベースのサンプリング手法に向け、データセット空間の多様性と難易度の両方をカプセル化するコアセットを選択する。
我々は,様々な視覚および言語データセット上での教師付きおよび自己教師付きバージョンの評価を行った。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を改善し、最大70%のプルーニングレートが得られた。
さらに,大規模マルチモーダルデータセットのフィルタリングにd2プルーニングを使用すると,データセットの多様性が向上し,事前学習モデルの一般化が向上することが分かった。
関連論文リスト
- 3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation [13.058299222554295]
大きな言語モデルは一般的なタスクでは優れていますが、医療のような専門分野では苦労しています。
2段階モデル中心のデータ選択フレームワークDe Difficulty Data Selection (3DS)を提案する。
実世界の医療データセットに関する我々の実験は、既存の方法よりも5.29%以上の精度で3DSの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-10-13T02:29:00Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Probabilistic Bilevel Coreset Selection [24.874967723659022]
本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。
暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
論文 参考訳(メタデータ) (2023-01-24T09:37:00Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。