論文の概要: Coresets from Trajectories: Selecting Data via Correlation of Loss Differences
- arxiv url: http://arxiv.org/abs/2508.20230v1
- Date: Wed, 27 Aug 2025 19:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.74575
- Title: Coresets from Trajectories: Selecting Data via Correlation of Loss Differences
- Title(参考訳): 軌道からのコアセット:損失差の相関によるデータの選択
- Authors: Manish Nagaraj, Deepak Ravikumar, Kaushik Roy,
- Abstract要約: 損失差の相関(CLD)は、コアセット選択のためのスケーラブルな計量である。
CIFAR-100 と ImageNet-1k では、CLD ベースのコアセットは一般的に最先端の手法よりも優れ、あるいは密に一致している。
- 参考スコア(独自算出の注目度): 14.31847187460321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models achieve state-of-the-art performance across domains but face scalability challenges in real-time or resource-constrained scenarios. To address this, we propose Correlation of Loss Differences (CLD), a simple and scalable metric for coreset selection that identifies the most impactful training samples by measuring their alignment with the loss trajectories of a held-out validation set. CLD is highly efficient, requiring only per-sample loss values computed at training checkpoints, and avoiding the costly gradient and curvature computations used in many existing subset selection methods. We develop a general theoretical framework that establishes convergence guarantees for CLD-based coresets, demonstrating that the convergence error is upper-bounded by the alignment of the selected samples and the representativeness of the validation set. On CIFAR-100 and ImageNet-1k, CLD-based coresets typically outperform or closely match state-of-the-art methods across subset sizes, and remain within 1% of more computationally expensive baselines even when not leading. CLD transfers effectively across architectures (ResNet, VGG, DenseNet), enabling proxy-to-target selection with <1% degradation. Moreover, CLD is stable when using only early checkpoints, incurring negligible accuracy loss. Finally, CLD exhibits inherent bias reduction via per-class validation alignment, obviating the need for additional stratified sampling. Together, these properties make CLD a principled, efficient, stable, and transferable tool for scalable dataset optimization.
- Abstract(参考訳): ディープラーニングモデルは、ドメイン間で最先端のパフォーマンスを実現するが、リアルタイムまたはリソース制約のあるシナリオでスケーラビリティの課題に直面している。
そこで我々は,コアセット選択のためのシンプルでスケーラブルな尺度であるCLD(Relation of Loss Differences)を提案する。
CLDは非常に効率的で、トレーニングチェックポイントで計算されるサンプル単位の損失値のみを必要とする。
我々は, CLD ベースのコアセットの収束保証を確立するための一般的な理論フレームワークを開発し, 選択したサンプルのアライメントと検証セットの表現性によって収束誤差が上界であることを実証した。
CIFAR-100 と ImageNet-1k では、CLD ベースのコアセットは、通常、サブセットサイズにわたって最先端のメソッドよりも優れ、あるいは密に一致し、リードしない場合でも、より計算的に高価なベースラインの1%以内に留まる。
CLDは、アーキテクチャ(ResNet、VGG、DenseNet)間で効果的に転送し、1%の劣化でプロキシ・ツー・ターゲットの選択を可能にする。
さらに、初期チェックポイントのみを使用する場合、CLDは安定であり、無視できる精度の損失が生じる。
最後に、CLDはクラスごとの検証アライメントによって固有のバイアス低減を示し、さらなる層別サンプリングの必要性を回避している。
これらの特性により、CLDは、スケーラブルなデータセット最適化のための原則付き、効率的、安定、転送可能なツールとなる。
関連論文リスト
- Finding the Muses: Identifying Coresets through Loss Trajectories [7.293244528299574]
Loss Trajectory correlation (LTC)は、コアセット選択のための新しいメトリクスであり、一般化を駆動する重要なトレーニングサンプルを特定する。
$LTC$は、最先端のコアセット選択メソッドに匹敵する精度を一貫して達成します。
また、一致した振る舞いや矛盾するサンプルの振る舞いを識別するなど、トレーニングダイナミクスに関する洞察も提供する。
論文 参考訳(メタデータ) (2025-03-12T18:11:16Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - Low Saturation Confidence Distribution-based Test-Time Adaptation for Cross-Domain Remote Sensing Image Classification [4.7514513970228425]
Unsupervised Domain Adaptation (UDA)は、様々なリモートセンシング(RS)アプリケーション間の分散シフトに対処する強力な技術として登場した。
ほとんどのUDAアプローチでは、データプライバシや送信制限のため、ソースデータへのアクセスが必要になります。
低飽和度分布テスト時間適応(D-TTA)マーケティングは、クロスドメインRS画像分類のためのテスト時間適応を探求する最初の試みである。
論文 参考訳(メタデータ) (2024-08-29T05:04:25Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - SEMI-CenterNet: A Machine Learning Facilitated Approach for
Semiconductor Defect Inspection [0.10555513406636088]
我々は半導体ウエハ欠陥のSEM画像に基づいて学習したカスタマイズCNアーキテクチャであるSEMI-CenterNet(SEMI-CN)を提案する。
SEMI-CNは、欠陥インスタンスの中心、クラス、サイズ、オフセットを出力するように訓練される。
2つのデータセットでSEMI-CNをトレーニングし、2つのResNetバックボーンをベンチマークします。
論文 参考訳(メタデータ) (2023-08-14T14:39:06Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。