論文の概要: Data Pruning by Information Maximization
- arxiv url: http://arxiv.org/abs/2506.01701v1
- Date: Mon, 02 Jun 2025 14:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.309316
- Title: Data Pruning by Information Maximization
- Title(参考訳): 情報の最大化によるデータ処理
- Authors: Haoru Tan, Sitong Wu, Wei Huang, Shizhen Zhao, Xiaojuan Qi,
- Abstract要約: コアセット選択(coreset selection)とも呼ばれる新しいデータプルーニング手法であるInfoMaxを提案する。
これによってInfoMaxは、コアセットの全体的な情報性を高める。
実験では、さまざまなデータプルーニングタスクにおいてInfoMaxの優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 48.76022922991784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present InfoMax, a novel data pruning method, also known as coreset selection, designed to maximize the information content of selected samples while minimizing redundancy. By doing so, InfoMax enhances the overall informativeness of the coreset. The information of individual samples is measured by importance scores, which capture their influence or difficulty in model learning. To quantify redundancy, we use pairwise sample similarities, based on the premise that similar samples contribute similarly to the learning process. We formalize the coreset selection problem as a discrete quadratic programming (DQP) task, with the objective of maximizing the total information content, represented as the sum of individual sample contributions minus the redundancies introduced by similar samples within the coreset. To ensure practical scalability, we introduce an efficient gradient-based solver, complemented by sparsification techniques applied to the similarity matrix and dataset partitioning strategies. This enables InfoMax to seamlessly scale to datasets with millions of samples. Extensive experiments demonstrate the superior performance of InfoMax in various data pruning tasks, including image classification, vision-language pre-training, and instruction tuning for large language models.
- Abstract(参考訳): 本稿では,新しいデータ解析手法であるInfoMaxについて,冗長性を最小化しつつ,選択したサンプルの情報内容の最大化を図った。
これによってInfoMaxは、コアセットの全体的な情報性を高める。
個々のサンプルの情報は重要度スコアによって測定され、モデル学習におけるその影響や難しさを捉えている。
冗長性の定量化には、類似したサンプルが学習プロセスに類似しているという前提に基づいて、ペアワイズなサンプル類似性を用いる。
我々は、コアセット選択問題を離散二次プログラミング(DQP)タスクとして定式化し、コアセット内の類似サンプルによって導入された冗長性を除いた個々のサンプルコントリビューションの和として表される全情報内容の最大化を目的としている。
実用的スケーラビリティを確保するために,類似度行列とデータセット分割戦略に適用したスペーシフィケーション手法を補完する,効率的な勾配解法を導入する。
これによりInfoMaxは、数百万のサンプルを持つデータセットにシームレスにスケールできる。
大規模な実験では、画像分類、視覚言語事前学習、大規模言語モデルの命令チューニングなど、様々なデータプルーニングタスクにおいてInfoMaxの優れた性能を示す。
関連論文リスト
- Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [41.4789135538612]
本稿では,各サンプルの品質評価から,各サンプルのコントリビューション値の比較に焦点を移す,新しい選択型サンプル選択フレームワークを提案する。
LLM(Large Language Models)の高度な言語理解機能により,LLMを用いて選択過程における各オプションの価値を評価する。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - Exploiting Representation Bias for Data Distillation in Abstractive Text
Summarization [25.467836837575742]
深層モデルでは入力空間の多様性を捉えることができないことを示す。
モデルのサンプル空間の多様性を学習するために、クラスタリング技術を使用します。
余分なデータポイントをフィルタリングしてモデルをより堅牢にし、データ空腹を減らすためのメトリクスを考案しました。
論文 参考訳(メタデータ) (2023-12-10T22:30:03Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。