論文の概要: Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction
- arxiv url: http://arxiv.org/abs/2501.10466v2
- Date: Sun, 26 Oct 2025 18:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.291487
- Title: Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction
- Title(参考訳): 潜時クラスタリングに基づくデータリダクションによる半スーパーバイザ・トレーニングの効率化
- Authors: Somrita Ghosh, Yuelin Xu, Xiao Zhang,
- Abstract要約: 近年の研究では,外部ラベル付き・合成データを用いた半教師付き対人訓練(SSAT)手法が提案されている。
SSATは、高い堅牢性を達成するためにかなりのデータを必要とするため、トレーニング時間が長くなり、メモリ使用量が増加する。
SSATの効率を改善するためのラベルなしデータ削減戦略を提案する。
- 参考スコア(独自算出の注目度): 3.3739429143238784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving high model robustness under adversarial settings is widely recognized as demanding considerable training samples. Recent works propose semi-supervised adversarial training (SSAT) methods with external unlabeled or synthetically generated data, which are the current state-of-the-art. However, SSAT requires substantial extra data to attain high robustness, resulting in prolonged training time and increased memory usage. In this paper, we propose unlabeled data reduction strategies to improve the efficiency of SSAT. Specifically, we design novel latent clustering-based techniques to select or generate a small critical subset of data samples near the model's decision boundary. While focusing on boundary-adjacent points, our methods maintain a balanced ratio between boundary and non-boundary data points to avoid overfitting. Comprehensive experiments on benchmark datasets demonstrate that our methods can significantly reduce SSAT's data requirement and computation costs while preserving its strong robustness advantages. In particular, our latent-space selection scheme based on k-means clustering and our guided DDPM fine-tuning approach with LCG-KM are the most effective, achieving nearly identical robust accuracies with 5x to 10x less unlabeled data and approximately 4x less total runtime.
- Abstract(参考訳): 高いモデルロバスト性を敵の設定下で達成することは、かなりのトレーニングサンプルを必要とすると広く認識されている。
最近の研究は、現在最先端である外部ラベル付きまたは合成データを用いた半教師付き対人訓練(SSAT)手法を提案する。
しかし、SSATは高い堅牢性を達成するためにかなりのデータを必要とするため、トレーニング時間が長くなり、メモリ使用量が増加する。
本稿では、SSATの効率を改善するためのラベルなしデータ削減戦略を提案する。
具体的には、モデル決定境界付近で、データサンプルの小さなクリティカルサブセットを選択または生成するための、潜在クラスタリングに基づく新しい手法を設計する。
境界隣接点に着目しながら、オーバーフィッティングを避けるために境界データ点と非境界データ点のバランスの取れた比を維持する。
ベンチマークデータセットの総合的な実験により、SSATのデータ要求と計算コストを大幅に削減し、強靭性優位性を保ったままにできることを示した。
特に,k平均クラスタリングに基づく潜在空間選択方式とLCG-KMを用いたDDPM微調整手法が最も効果的であり,ラベル付きデータの5倍から10倍の精度で,総実行時間の約4倍の精度で実現可能である。
関連論文リスト
- Enhancing Classification with Semi-Supervised Deep Learning Using Distance-Based Sample Weights [0.0]
この研究は、テストデータに近接してトレーニングサンプルを優先順位付けする半教師付きフレームワークを提案する。
12のベンチマークデータセットの実験では、精度、精度、リコールなど、主要なメトリクス間で大幅な改善が示されている。
このフレームワークは、半教師付き学習のための堅牢で実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-20T13:29:04Z) - Propensity-driven Uncertainty Learning for Sample Exploration in Source-Free Active Domain Adaptation [19.620523416385346]
ソースフリーアクティブドメイン適応(SFADA)は、ソースデータにアクセスせずに、トレーニング済みのモデルを新しいドメインに適応するという課題に対処する。
このシナリオは、データプライバシ、ストレージ制限、ラベル付けコストが重要な懸念事項である現実世界のアプリケーションに特に関係している。
Propensity-driven Uncertainty Learning (ProULearn) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T10:05:25Z) - Maximally Separated Active Learning [32.98415531556376]
固定等角超球面点をクラスプロトタイプとして利用する能動的学習法を提案する。
5つのベンチマークデータセットにまたがる既存のアクティブラーニング技術よりも高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-26T14:02:43Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Empowering HWNs with Efficient Data Labeling: A Clustered Federated
Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。
本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。
その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-01-19T11:47:49Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - A new weakly supervised approach for ALS point cloud semantic
segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。
不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。
本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文 参考訳(メタデータ) (2021-10-04T14:00:23Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。