論文の概要: A Differentiable Adversarial Framework for Task-Aware Data Subsampling
- arxiv url: http://arxiv.org/abs/2601.02081v1
- Date: Mon, 05 Jan 2026 13:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.138814
- Title: A Differentiable Adversarial Framework for Task-Aware Data Subsampling
- Title(参考訳): タスク認識型データサブサンプリングのための微分可能な逆処理フレームワーク
- Authors: Jiacheng Lyu, Bihua Bao,
- Abstract要約: 本稿では,データ削減を識別可能なエンドツーエンド学習問題に再構成する新しいパラダイムとして,ASSS(Antagonistic soft selection subsampling)フレームワークを導入する。
この研究は、学習可能なコンポーネントとしてタスク認識データサブサンプリングを確立し、大規模なデータ学習を効果的に行うための原則的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of large-scale datasets poses a major computational challenge to model training. The traditional data subsampling method works as a static, task independent preprocessing step which usually discards information that is critical to downstream prediction. In this paper, we introduces the antagonistic soft selection subsampling (ASSS) framework as is a novel paradigm that reconstructs data reduction into a differentiable end-to-end learning problem. ASSS uses the adversarial game between selector network and task network, and selector network learning assigns continuous importance weights to samples. This direct optimization implemented by Gumbel-Softmax relaxation allows the selector to identify and retain samples with the maximum amount of information for a specific task target under the guidance of the loss function that balances the fidelity and sparsity of the prediction. Theoretical analysis links this framework with the information bottleneck principle. Comprehensive experiments on four large-scale real world datasets show that ASSS has always been better than heuristic subsampling baselines such as clustering and nearest neighbor thinning in maintaining model performance. It is worth noting that ASSS can not only match, but also sometimes exceed the training performance of the entire dataset, showcasing the effect of intelligent denoising. This work establishes task aware data subsampling as a learnable component, providing a principled solution for effective large-scale data learning.
- Abstract(参考訳): 大規模データセットの拡散は、モデルトレーニングに対する大きな計算上の課題である。
従来のデータサブサンプリング手法は、静的でタスクに依存しない前処理ステップとして機能し、通常、下流の予測に重要な情報を破棄する。
本稿では,データ削減を識別可能なエンドツーエンド学習問題に再構成する新しいパラダイムとして,ASSS(Antagonistic soft selection subsampling)フレームワークを紹介する。
ASSSはセレクタネットワークとタスクネットワークの間の対戦ゲームを使用し、セレクタネットワーク学習はサンプルに連続的な重み付けを割り当てる。
Gumbel-Softmax緩和によって実装されたこの直接最適化により、セレクタは、予測の忠実さと疎さのバランスをとる損失関数のガイダンスの下で、特定のタスク対象に対して最大情報量でサンプルを特定し、保持することができる。
理論的分析は、このフレームワークと情報ボトルネックの原則を結びつける。
4つの大規模な実世界のデータセットに関する総合的な実験は、ASSSがモデル性能を維持する上で、クラスタリングや近隣のシンニングのようなヒューリスティックなサブサンプリングベースラインよりも常に優れていることを示している。
注目すべきなのは、ASSSがマッチするだけでなく、データセット全体のトレーニングパフォーマンスを上回り、インテリジェントな denoising の効果を示すことがあることだ。
この研究は、学習可能なコンポーネントとしてタスク認識データサブサンプリングを確立し、大規模なデータ学習を効果的に行うための原則的なソリューションを提供する。
関連論文リスト
- Does This Look Familiar to You? Knowledge Analysis via Model Internal Representations [0.0]
効果的なトレーニングデータ選択のための明確な方法論は存在しない。
モデル内部表現(KAMIR)は、これらの制限を克服する新しいアプローチである。
機械読解や要約など、幅広いタスクに適用することができる。
論文 参考訳(メタデータ) (2025-09-09T01:08:15Z) - PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity [6.6157730528755065]
インクリメンタルデータ選択(IDS)問題では,サンプルが連続的なストリームとして到着し,完全なデータソースにアクセスせずに選択する必要がある。
IDSに適した効率的なデータ選択法であるPEAKSを提案する。
PEAKSが既存の選択戦略を一貫して上回ることを示す総合評価を行った。
論文 参考訳(メタデータ) (2025-04-07T16:42:09Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。